基础爬虫之xpath爬取图片

最新推荐文章于 2024-06-05 20:50:49 发布

远离Bug。

最新推荐文章于 2024-06-05 20:50:49 发布

阅读量1.1k

点赞数 5

文章标签：爬虫学习笔记 python

本文链接：https://blog.csdn.net/ZHU1640182189/article/details/130755631

版权

一、什么是xpath？
我认为他就是根据路径一级一级去寻找，然后定位到我们所需要的元素下。比如代码中的这个路径：

//div[@class="ibox2 all"]/ul/li

表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素，包含着所有的ul下的li。
二、以下为本次的实验代码及步骤:
Step1:导库；导入requests请求库和lxml中的etree库
Step2:完成第一次对于大图网宇宙星空类的图片进行第一次请求，得到一个宇宙星空图的首页源码
Step3:使用etree中的HTML方法对字符串格式的源码进行转换，得到一个可以被xpath识别的
_Element对象，然后进行xpath路径截取，存储在一个列表中，然后进行一个for循环遍历列表，得到图片对应的页面源码
Step4:运用xpath方法对图片的url进行截取然后进行请求，并转换成二进制文件，然后进行持续化存储。


＃以爬取大图网其中一个板块的所有图片为例

import requests
from lxml import etree
if __name__ == '__main__':
    headers={
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Mobile Safari/537.36 Edg/113.0.1774.42'
    }
    index_url='http://www.daimg.com/photo/space/'
    index_text=requests.get(url=index_url,headers=headers).text
    ＃将字符串格式转换为_Element对象
    index_tree=etree.HTML(index_text)
    image_list=index_tree.xpath('//div[@class="ibox2 all"]/ul/li')
    ＃定义一个整数，方便作为文件名
    i=0
    for li in image_list:
        src_url=li.xpath('./a/@href')[0]
        image_text=requests.get(url=src_url,headers=headers).text
        image_tree=etree.HTML(image_text)
        image_url=image_tree.xpath('//div[@class="n_left1"]/ul[2]/img/@src')[0]
        image_content=requests.get(url=image_url,headers=headers).content
        image_name=str(i)+'.jpg'
        with open('./file/'+image_name,'wb')as fp:
            fp.write(image_content)
        i+=1
        print(image_name+'下载成功————————')

三、实验结果截图
在这里插入图片描述
(欢迎大神指导菜鸡)

远离Bug。

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
基础爬虫之xpath爬取图片

Element对象，然后进行xpath路径截取，存储在一个列表中，然后进行一个for循环遍历列表，得到图片对应的页面源码。表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素，包含着所有的ul下的li。Step4:运用xpath方法对图片的url进行截取然后进行请求，并转换成二进制文件，然后进行持续化存储。Step3:使用etree中的HTML方法对字符串格式的源码进行转换，得到一个可以被xpath识别的。一、什么是xpath？(欢迎大神指导菜鸡)
复制链接

扫一扫