一、什么是xpath?
我认为他就是根据路径一级一级去寻找,然后定位到我们所需要的元素下。比如代码中的这个路径:
//div[@class="ibox2 all"]/ul/li
表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素,包含着所有的ul下的li。
二、以下为本次的实验代码及步骤:
Step1:导库;导入requests请求库和lxml中的etree库
Step2:完成第一次对于大图网宇宙星空类的图片进行第一次请求,得到一个宇宙星空图的首页源码
Step3:使用etree中的HTML方法对字符串格式的源码进行转换,得到一个可以被xpath识别的
_Element对象,然后进行xpath路径截取,存储在一个列表中,然后进行一个for循环遍历列表,得到图片对应的页面源码
Step4:运用xpath方法对图片的url进行截取然后进行请求,并转换成二进制文件,然后进行持续化存储。
#以爬取大图网其中一个板块的所有图片为例
import requests
from lxml import etree
if __name__ == '__main__':
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Mobile Safari/537.36 Edg/113.0.1774.42'
}
index_url='http://www.daimg.com/photo/space/'
index_text=requests.get(url=index_url,headers=headers).text
#将字符串格式转换为_Element对象
index_tree=etree.HTML(index_text)
image_list=index_tree.xpath('//div[@class="ibox2 all"]/ul/li')
#定义一个整数,方便作为文件名
i=0
for li in image_list:
src_url=li.xpath('./a/@href')[0]
image_text=requests.get(url=src_url,headers=headers).text
image_tree=etree.HTML(image_text)
image_url=image_tree.xpath('//div[@class="n_left1"]/ul[2]/img/@src')[0]
image_content=requests.get(url=image_url,headers=headers).content
image_name=str(i)+'.jpg'
with open('./file/'+image_name,'wb')as fp:
fp.write(image_content)
i+=1
print(image_name+'下载成功————————')
三、实验结果截图
(欢迎大神指导菜鸡)