使用爬虫xpath提取数据-爬取美女图片

为了丰富一下自己的爬虫知识,咳咳咳!!!于是我爬取了目标网页的高清照片。这样给各位大佬和小伙伴们展示的时候也会显得逼格满满。进入正题:
我们第一步先要找到网站,具体如下方代码展示,我们和其他博主不同的地方在于我们把每一个爬取的照片名字都爬取了下来,然后将名字命名为文件名,然后将图片存储于文件当中。其中我们在爬取过程中遇到了名字进行了加密,于是我们最开始使用decode进行解密,发现没有效果,最后我们使用了这种resp.encoding = resp.apparent_encoding方案,非常实用的方法,重要!!!
找到图片标签点进去,在这里我们右键就可以直接可以获取到每一张图片的详情信息和照片名字,我们通过使用xpath进行数据爬取,然后我们通过requests库进行访问图片的url,然后使用urlretrieve进行下载。对比与其他大佬的爬虫,我们将每一个图片建立成了一个文件,然后进行了封装,文件名和图片名一致,具体看代码:

import requests
from lxml import etree
from urllib import parse
import os
from urllib import request

headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36'
        }
def main():
    for page in range(1,5):
        page_url=f'***'##(具体看下方评论吧)
        resp=requests.get(page_url,headers=headers)
        resp.encoding = resp.apparent_encoding#因为爬取到的名字是乱码,所以在这里进行解码
        text=resp.text
        parser = etree.HTML(text)
        detail_urls=parser.xpath("//div[@class='list_con_box']/ul[@class='list_con_box_ul']//li/a/img/@src")
        name = parser.xpath("//div[@class='list_con_box']/ul[@class='list_con_box_ul']/li/a/label/text()")
        for index,detail_url in enumerate(detail_urls):
            dirpath = os.path.join('image',name[index])
            os.mkdir(dirpath)
            request.urlretrieve(detail_url,os.path.join(dirpath,"%d.jpg"%(index+1)))
            print('%s下载完成' % detail_url)

if __name__ == '__main__':
    main()

这里我们就完成了照片的爬取,谢谢各位大佬的观看!

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吃猫的鱼python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值