Python爬取美桌网图片（保存在电脑上）

最新推荐文章于 2023-05-15 10:41:53 发布

知识进脑的肖老千啊

最新推荐文章于 2023-05-15 10:41:53 发布

阅读量703

点赞数

分类专栏：爬虫 python 文章标签： python

本文链接：https://blog.csdn.net/m0_50481455/article/details/108872858

版权

python 同时被 2 个专栏收录

43 篇文章 2 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

该博客记录了使用Python的requests和parsel模块爬取网页图片的过程。作者首先通过循环遍历指定页面，然后分析URL和headers发送请求获取响应。接着，使用XPath解析数据，提取图片链接，并下载保存图片。

摘要由CSDN通过智能技术生成

之前看视频写的，做个记录上传一下把！
用python爬取图片，用到的模块有requests和parsel
附上代码

import parsel
import requests
#一共五页
for page in range(1,6):
    print("正在爬取第{}页数据".format(page))
    #爬虫的一般思路
    # 分析目标网页，确定爬取的url路径，headers参数
    base_url = "http://www.win4000.com/meinvtag26_{}.html".format(str(page))
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400"}
    # 发送请求-- requests模拟浏览器发送请求，获取响应数据
    response = requests.get(url = base_url,headers = headers)
    data = response.text
    # print(data)
    # 解析数据 --parsel 转化为Selector对象 Selector对象具有xpath方法，能够对转化的数据进行处理
    html_data = parsel.Selector(data)
    # extract()返回的是一个列表
    data_list = html_data.xpath("//div[@class='Left_bar']//ul/li/a/@href").extract()
    # print(data_list)
    for alist in data_list:
        response_2 = requests.get(url=alist,headers = headers).text
        # 解析相册内部的url地址
        response_2_data = parsel.Selector(response_2)
        img_url = response_2_data.xpath("//div[@class='pic-meinv']/a/img/@data-original").extract_first()
        print(img_url)
        img_data = requests.get(url=img_url,headers = headers).content
        # 保存数据
        # 准备文件名称
        file_name = img_url.split("/")[-1]
        with open("file_name\\" +file_name,mode='wb') as f:
            print("正在保存图片：",file_name)
            f.write(img_data)