xpath爬取图片数据的尝试

最新推荐文章于 2023-12-11 09:11:05 发布

是单宁酶啊

最新推荐文章于 2023-12-11 09:11:05 发布

阅读量106

点赞数 2

分类专栏： python爬虫

本文链接：https://blog.csdn.net/m0_51261743/article/details/115740659

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这是一个xpath爬取图片数据的简单模型：

import requests
from lxml import etree
import os

headers={
	"User-Agent":"这里写自己的user－agent"
	#如果需要登录，要加一行cookie
}

if not os.path.exists("./xxx"):
	os.mkdir("./xxx")# 创建文件夹
j=1#代表爬取的图片数
for x in range(1,11):# x为爬取页数
	url=f"https://。。。。。。。{x}.html"# 这里选择爬取的网页
	page_text=requests.get(url=url,headers=headers).text#获得网页数据

	tree=etree.HTML(page_text)# 创建etree对象

	list=tree.xpath('//ul[@class="pli"]/li')#将li标签里的图片链接添加到list里。这里的XPath路径需要具体分析

	for i in list:
		img_src="http:"+i.xpath('./div//img/@src')[0]#这里也要具体分析
		img_name=i.xpath('./div//img/@alt')[0]+f'{j}'+".jpg"#j是为了防止图片重名被覆盖
	
		img_data=requests.get(url=img_src,headers=headers).content
		img_path='xxxx/'+img_name#图片名
		with open(img_path,'wb')as fp:
			fp.write(img_data)
			print(img_name,"爬取成功！")
			j+=1
#注意:如果返回[]，大概率是url或XPath路径错误，小概率为被反爬。注意辨别。
#注意:XPath路径中如果有tbody，不要写。

这是一个XPath爬取图片数据的小模板，在此记录一下，如有错误，请大佬们指正！

是单宁酶啊

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
xpath爬取图片数据的尝试

这是一个xpath爬取数据的简单模型：import requestsfrom lxml import etreeimport osheaders={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75"}if not os.path.exists("./
复制链接

扫一扫