python爬虫,爬取百度图片

本文记录了作者在使用Python爬虫抓取百度图片时遇到的问题,包括动态加载的图片URL解析、正则表达式筛选图片源地址、处理缺失格式的图片链接以及未找到图片总数的解析方法。作者分享了自己的解决策略和代码片段。
摘要由CSDN通过智能技术生成

这两天尝试在爬取百度图片时,遇到了不少坑,有几处问题还不太明白,先记录下来,待日后解决。

问题如下:

1. 百度图片的网页有两种:

http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&

http://image.baidu.com/search/flip?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&

两者只有加下划线的部分不同,但是关键字为index的url图片是动态加载的,使用xpath无法解析到图片的链接地址

关键字为flip的是固定页面,每页显示固定张数的图片,但是从浏览器端看到只有30张,但是通过requests.get获取到的图片url却有60个,不是很理解这一点。

我写的爬虫使用的是解析关键字为flip的url

2. 在获取到html.text后,通过正则表达式来筛选出图片的源地址

re.findall('"objURL":"(.*?)",', html, re.S)

这一句是借鉴了其他人的写法&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值