使用爬虫xpath提取数据-爬取美女图片

吃猫的鱼python

已于 2022-08-08 10:26:10 修改

阅读量393

点赞数 7

分类专栏： python网络爬虫知识从基础到进阶文章标签：爬虫 python 开发语言

于 2022-05-10 21:01:34 首次发布

本文链接：https://blog.csdn.net/m0_37623374/article/details/124697181

版权

python网络爬虫知识从基础到进阶专栏收录该内容

15 篇文章 31 订阅

订阅专栏

为了丰富一下自己的爬虫知识，咳咳咳！！！于是我爬取了目标网页的高清照片。这样给各位大佬和小伙伴们展示的时候也会显得逼格满满。进入正题：
我们第一步先要找到网站，具体如下方代码展示，我们和其他博主不同的地方在于我们把每一个爬取的照片名字都爬取了下来，然后将名字命名为文件名，然后将图片存储于文件当中。其中我们在爬取过程中遇到了名字进行了加密，于是我们最开始使用decode进行解密，发现没有效果，最后我们使用了这种resp.encoding = resp.apparent_encoding方案，非常实用的方法，重要！！！
找到图片标签点进去，在这里我们右键就可以直接可以获取到每一张图片的详情信息和照片名字，我们通过使用xpath进行数据爬取，然后我们通过requests库进行访问图片的url，然后使用urlretrieve进行下载。对比与其他大佬的爬虫，我们将每一个图片建立成了一个文件，然后进行了封装，文件名和图片名一致，具体看代码：

import requests
from lxml import etree
from urllib import parse
import os
from urllib import request

headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36'
        }
def main():
    for page in range(1,5):
        page_url=f'***'##（具体看下方评论吧）
        resp=requests.get(page_url,headers=headers)
        resp.encoding = resp.apparent_encoding#因为爬取到的名字是乱码，所以在这里进行解码
        text=resp.text
        parser = etree.HTML(text)
        detail_urls=parser.xpath("//div[@class='list_con_box']/ul[@class='list_con_box_ul']//li/a/img/@src")
        name = parser.xpath("//div[@class='list_con_box']/ul[@class='list_con_box_ul']/li/a/label/text()")
        for index,detail_url in enumerate(detail_urls):
            dirpath = os.path.join('image',name[index])
            os.mkdir(dirpath)
            request.urlretrieve(detail_url,os.path.join(dirpath,"%d.jpg"%(index+1)))
            print('%s下载完成' % detail_url)

if __name__ == '__main__':
    main()