python之pyquery爬取网站图片并存储到MongoDB
这次爬取图片的示例网站是:斗图吧http://www.doutula.com/photo/list/
用到的包是:pyquery,并非正则及其他的包,因为比较操作简单,易懂。
首先就是得到该网址源代码:特别需要注意,如果没有user-agent,就是这个代理的话,很可能爬取到的就是 403,而不是200,就不能正常,这里还加了一个异常处理,免得报错。
def get_html(url):
...
原创
2018-08-09 23:46:55 ·
2394 阅读 ·
0 评论