python批量爬取网页图片(requests,xpath)

python批量爬取网页图片(requests,xpath)

闲来无事学习了python爬虫,xpath真是一个简单好用的工具,给我的LSP室友找一些符合他口味的图片。现在开始爬虫,所需工具:一台能上网并且可以运行python的电脑,python IDE(推荐pycharm或者anaconda),anaconda中集成了大量的python第三方库,对于我这种新手还是比较友好的),需要用到的第三方库:requests,lxml,os,time。

**

第一步:请求网页

**
首先使用requests库中的get函数访问自己想要爬取数据的网页,得到网页数html数据。通常要加上请求头。
进入网页之后,检查网页源代码,在notework下header获取请求头
,在这里插入图片描述
代码如下

url = "https://www.99tu.com/mz/siwameitui/29_5.html" 
header = {
   "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'}
repounse = requests.get(url,headers=header)
content = repounse.content.decode('utf-8')

**

第二步:利用xpath获取图片地址和名称

**
什么是XPath?

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
W3School官方文档:http://www.w3school.com.cn/xpath/index.asp

XPath 开发工具

开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用) Chrome插件 XPath Helper Firefox插件
XPath Checker

选取节点

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。 这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

路径表达式:
在这里插入图片描述
具体操作:在浏览器中打开开发者模式,使用插件Chrome插件 XPath Helper,找到图片的src地址和alt名称。xpath helper是以一个非常好用的开发者工具,可以在网页上找到你想要的信息,无需在程序中验证。

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值