
Python 3 多线程下载百度图片搜索结果
转载来至:http://lovenight.github.io/2015/11/15/Python-3-%E5%A4%9A%E7%BA%BF%E7%A8%8B%E4%B8%8B%E8%BD%BD%E7%99%BE%E5%BA%A6%E5%9B%BE%E7%89%87%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C/
下载简单页面
查看网页源码,发现同一张图片有四种网址:
"thumbURL": "http://img1.imgtn.bdimg.com/it/u=757023778,2840825931&fm=21&gp=0.jpg",
"middleURL": "http://img1.imgtn.bdimg.com/it/u=757023778,2840825931&fm=21&gp=0.jpg",
"hoverURL": "http://img1.imgtn.bdimg.com/it/u=757023778,2840825931&fm=23&gp=0.jpg",
"objURL": "http://imgsrc.baidu.com/forum/w=580/sign=b3bcc2f88a5494ee87220f111df4e0e1/78fed309b3de9c82913abac86a81800a18d84344.jpg",
经测试,前三种都有反爬虫措施,用浏览器可以打开,但是刷新一次就403 Forbidden。用爬虫获取不到图片。
第四种objURL是指图片的源网址,获取该网址会出现三种情况:
- 正常。继续下载
- 403 Forbidden。用continue跳过。
- 出现异常。用try except处理。
代码如下:
1 | import requests |
Exciting!
加载更多图片
但是上面的代码还有不足,当我们在网页中下拉时,百度会继续加载更多图片。需要再完善一下代码。
打开Chrome,按F12,切换到Network标签,然后将网页向下拉。这时浏览器地址栏的网址并没有改变,而网页中的图片却一张张增加,说明网页在后台与服务器交互数据。警察蜀黍,就是这家伙:
xhr全称XMLHttpRequest,详细介绍见百度:XMLHTTPRequest_百度百科
这么长一串网址,没有头绪。下拉网页,再抓一个xhr,对比一下它们的Request URL,使用在线文字对比工具:文本比较
URL末尾有三处变化,最后一项看上去是时间戳,经过测试,直接把它删了也没事。
那么只需要研究pn
和gsm
值。继续下拉,到底的时候点加载更多图片
,多抓几个对比一下URL的末尾部分:
pn=120&rn=60&gsm=78
pn=180&rn=60&gsm=b4
pn=240&rn=60&gsm=f0
pn=300&rn=60&gsm=12c
pn=360&rn=60&gsm=168
pn
是一个60为步长的等差数列。gsm
看上去是16进制,转换成十进制,发现它就是pn
值,试了也可以删掉。
经测试,rn
是步长值,最大只能取60,填入大于60的数,仍然以60为步长。如果删了rn
,则步长值变为30。pn
是图片编号,从0开始。
现在已经删了时间戳和gsm
两项了,能不能让网址再短一点?继续观察,注意到:
&se=&tab=&width=&height=
这几项没指定值,肯定没用,把没值的都删了。
再看看这两项:
queryWord=%E9%95%BF%E8%80%85%E8%9B%A4
word=%E9%95%BF%E8%80%85%E8%9B%A4
这就是我们本次搜索的关键词。网址中的中文会被编码成UTF-8,每个中文3个字节,每个字节前加上%号。编码和解码方法如下:
那么,我们可以写出指定关键词需要请求的所有网址:
1 | import itertools |
上面的代码中,itertools.count(start=0, step=60)表示一个从0开始,60为步长值的无限等差数列。
把这个数列的数字分别填入url作为pn值,就得到一个无限容量的url生成器,注意生成器必须用圆括号,如果写成中括号就成了列表,程序会在这一步无限执行下去。
下面开始解析每次获取的数据。我们点开看看,返回的是一串json数据。
纳尼,这个objURL怎么不是HTTP开头的。试了几种方法都没成功,Google一下,找到这个:百度图片url解码
OK,既然明白了原理,我们写一个Python版的解密实现:
1 | #!/usr/bin/env python |
测试成功!
再从JSON字符串中找出所有的originURL:
1 | re_url = re.compile(r'"objURL":"(.*?)"') |
格式化JSON推荐使用Chrome的JSON handle插件
单线程下载脚本
整理一下流程:
- 生成网址列表
- 发送HTTP请求获取json数据
- 解析数据得到网址
- 下载
整合一下上面的代码,可以写出单线程的下载脚本:
1 | #!/usr/bin/env python |
查看同目录下的results文件夹,又看到了亲切的「他」。
多线程下载脚本
上面的代码仍然有改进空间:
- 从JSON数据看,该关键词相关的图片有一千多张,单线程下载太慢了,时间都花在网络和硬盘IO上。加上多线程可以大大提升效率。
- 既然1中已经获取到图片总数,那么网址的无限容量生成器可以改成list,方便添加多线程。
多线程一直没学好,想不到更优雅的写法,大家将就看一下吧,欢迎提出改进建议。
百度图片下载脚本之多线程版:
1 | #!/usr/bin/env python |
执行脚本:
欢迎使用百度图片下载脚本!
目前仅支持单个关键词。
下载结果保存在脚本目录下的results文件夹中。
==================================================
请输入你要下载的图片关键词:
长者蛤
2015-11-15 19:25:11.726878 **脚本开始执行
2015-11-15 19:25:16.292022 **已获取 20 个Json请求网址
2015-11-15 19:25:17.885767 **已解析出 30 个图片网址
2015-11-15 19:25:17.917020 **已解析出 60 个图片网址
.....
.....中间省略
.....
2015-11-15 19:33:31.726739 已下载 980 张图片:http://bbs.nantaihu.com/bbs/UpImages2008/2010/8/3/U97946_201083171218512-2.jpg
2015-11-15 19:33:32.695518 已下载 990 张图片:http://pf.u.51img1.com/f9/7f/huangbaoling0_180.gif?v=20120224161006
2015-11-15 19:33:45.473957 已下载 1000 张图片:http://library.taiwanschoolnet.org/cyberfair2003/C0312970394/narrative.files/image018.jpg
2015-11-15 19:33:50.749544 **下载完成!已下载 1000 张图片,总用时 0:08:39.022666
2015-11-15 19:33:50.765169 **请到 F:\PythonWorkspace\Learn\results 查看结果!
2015-11-15 19:33:50.858880 **错误信息保存在 F:\PythonWorkspace\Learn\errorUrl.txt
合租室友太多,平时网速很慢,经常连百度都打不开,要刷新多次。下午测试的时候可以2分钟下完,现在居然要近9分钟。
errorUrl.txt
的内容
无法打开图片: http://s3.t.itc.cn/mblog/pic/20136_20_14/f_b3a1be1796819229739.png
403: http://www.longhoo.net/gb/longhoo/culture/view/images/00024483.jpg
无法打开图片: http://bhyjk.cn/images/IMG44zj10.jpg
404: http://ebook.indaa.com.cn/upload/baike/images/2960001-2970000/2968900/adee30ddd41190838c10291d.jpg
抛出异常: http://www.jzxzj.com/images/xs.jpg
HTTPConnectionPool(host='www.jzxzj.com', port=80): Max retries exceeded with url: /images/xs.jpg (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x0851FBB0>: Failed to establish a new connection: [Errno 11002] getaddrinfo failed',))
抛出异常: http://static.acfun.mm111.net/h/image/20147/846b7553851b6edb2305c6b87f4aed71.jpg
HTTPConnectionPool(host='static.acfun.mm111.net', port=80): Max retries exceeded with url: /h/image/20147/846b7553851b6edb2305c6b87f4aed71.jpg (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x0888B710>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed',))
抛出异常: http://static.acfun.mm111.net/h/image/2015-0-4/23ebeaf5-5130-4072-b90e-48ce4d122ac8.jpg
HTTPConnectionPool(host='static.acfun.mm111.net', port=80): Max retries exceeded with url: /h/image/2015-0-4/23ebeaf5-5130-4072-b90e-48ce4d122ac8.jpg (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x0888F1F0>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed',))
404: http://www.zipooo.com/tupian/1/%CE%EF%C1%F7%BF%EC%B5%DD.gif
无法打开图片: http://www.zhiyin.cn/hsbk/fakeimg/7939883.jpeg
无法打开图片: http://www.zhiyin.cn/hsbk/fakeimg/21753396.jpeg
.....
logInfo.txt
内容:
2015-11-15 19:25:11.726878 **脚本开始执行
2015-11-15 19:25:16.292022 **已获取 20 个Json请求网址
2015-11-15 19:25:17.885767 **已解析出 30 个图片网址
2015-11-15 19:25:17.917020 **已解析出 60 个图片网址
2015-11-15 19:25:17.948262 **已解析出 60 个图片网址
2015-11-15 19:25:17.963895 **已解析出 60 个图片网址
2015-11-15 19:25:17.995146 **已解析出 60 个图片网址
2015-11-15 19:25:18.010769 **已解析出 60 个图片网址
2015-11-15 19:25:18.057638 **已解析出 60 个图片网址
2015-11-15 19:25:18.057638 **已解析出 60 个图片网址
2015-11-15 19:25:18.073264 **已解析出 60 个图片网址
2015-11-15 19:25:18.073264 **已解析出 60 个图片网址
2015-11-15 19:25:18.088890 **已解析出 60 个图片网址
2015-11-15 19:25:18.088890 **已解析出 60 个图片网址
2015-11-15 19:25:18.104516 **已解析出 60 个图片网址
2015-11-15 19:25:18.104516 **已解析出 60 个图片网址
2015-11-15 19:25:18.104516 **已解析出 60 个图片网址
2015-11-15 19:25:18.104516 **已解析出 60 个图片网址
2015-11-15 19:25:18.245137 **已解析出 60 个图片网址
2015-11-15 19:25:18.260764 **已解析出 60 个图片网址
2015-11-15 19:25:18.260764 **已解析出 60 个图片网址
2015-11-15 19:25:18.479555 **已解析出 60 个图片网址
2015-11-15 19:25:27.532965 已下载 1 张图片:http://imgsrc.baidu.com/baike/abpic/item/43e6c7335b379350ad4b5f92.jpg
2015-11-15 19:25:29.084964
无法打开图片: http://s3.t.itc.cn/mblog/pic/20136_20_14/f_b3a1be1796819229739.png
2015-11-15 19:25:29.522473 已下载 2 张图片:http://p4.qhimg.com/dr/200_200_/t0196ad8cefbc7a2c7c.jpg
2015-11-15 19:25:29.822650 已下载 3 张图片:http://library.taiwanschoolnet.org/cyberfair2003/C0312970394/narrative.files/image016.jpg
2015-11-15 19:25:29.938687 已下载 4 张图片:http://blog.ylib.com/public/Utilities/ImageReader.aspx?/0/6/06c67eaf-09db-40a8-a117-c577a6d05d08.jpg
....
仍然可以改进的地方:
- 如果要搜索多个关键词,buildUrls方法应该怎么改?
- 如果脚本中途意外结束(比如被熊孩子点了X),如何继续下载?
- 线程池中的线程数需要多次测试才能找到最优值。