基础爬虫之xpath爬取图片

一、什么是xpath?
我认为他就是根据路径一级一级去寻找,然后定位到我们所需要的元素下。比如代码中的这个路径:

//div[@class="ibox2 all"]/ul/li

表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素,包含着所有的ul下的li。
二、以下为本次的实验代码及步骤:
Step1:导库;导入requests请求库和lxml中的etree库
Step2:完成第一次对于大图网宇宙星空类的图片进行第一次请求,得到一个宇宙星空图的首页源码
Step3:使用etree中的HTML方法对字符串格式的源码进行转换,得到一个可以被xpath识别的
_Element对象,然后进行xpath路径截取,存储在一个列表中,然后进行一个for循环遍历列表,得到图片对应的页面源码
Step4:运用xpath方法对图片的url进行截取然后进行请求,并转换成二进制文件,然后进行持续化存储。


#以爬取大图网其中一个板块的所有图片为例

import requests
from lxml import etree
if __name__ == '__main__':
    headers={
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Mobile Safari/537.36 Edg/113.0.1774.42'
    }
    index_url='http://www.daimg.com/photo/space/'
    index_text=requests.get(url=index_url,headers=headers).text
    #将字符串格式转换为_Element对象
    index_tree=etree.HTML(index_text)
    image_list=index_tree.xpath('//div[@class="ibox2 all"]/ul/li')
    #定义一个整数,方便作为文件名
    i=0
    for li in image_list:
        src_url=li.xpath('./a/@href')[0]
        image_text=requests.get(url=src_url,headers=headers).text
        image_tree=etree.HTML(image_text)
        image_url=image_tree.xpath('//div[@class="n_left1"]/ul[2]/img/@src')[0]
        image_content=requests.get(url=image_url,headers=headers).content
        image_name=str(i)+'.jpg'
        with open('./file/'+image_name,'wb')as fp:
            fp.write(image_content)
        i+=1
        print(image_name+'下载成功————————')

三、实验结果截图
在这里插入图片描述
(欢迎大神指导菜鸡)
在这里插入图片描述

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值