scrapy爬虫实例
guozehui123
我是个小兵,学西方人念经
展开
-
scrapy + mongodb爬取电影TOP250
无聊想看电影,今天上豆瓣看了一下,顺便爬了点豆瓣电影top250的榜单,并将数据存储到了mongodb中。用到了scrapy + windows + mongodb难点基本没有,也没遇到坑,就是存到mongodb数据库的时候有几步忘了,查了一下,看来要多用数据库才行。废话不多说,直接贴代码。平时遇到的坑昨天那篇博客已经说了,今天特别注意,有时候问题虽小,但是报错也很烦恼 = =…爬虫代码...原创 2018-10-18 17:38:36 · 375 阅读 · 0 评论 -
scrapy框架实现百度图片爬虫
scrapy框架实现百度图片爬虫这是我个人获取搜索引擎图片的爬虫思路,还有很多待完善的地方此程序的环境为windows + pycharm + python3.6 + scrapy思路:百度图片加载是基于ajax数据加载的,图片的url都藏在后台发送的json文件中,所以需要在开发者模式xhr中,找到对应的json请求,然后构造url发送即可得到返回的json文件,然后用正则表达式提取出图片...原创 2018-10-17 16:52:12 · 1043 阅读 · 0 评论 -
爬虫常用的user_agent
我多年收集的USER_AGENT,都整理正列表了,几百个拿去直接用!有些是有点年头了,随机选就行了USER_AGENT = [‘Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1C28 Safari/419.3’,‘Mozilla/5...原创 2018-10-20 11:16:58 · 958 阅读 · 1 评论