代码请移步GitHub SinaTranspondSpider
爬虫的功能:
- 将转发某条的微博的信息信息爬取下来,主要是转发者转发时的文字内容,转发人的uid, 转发
后的点赞数,以及转发的时间。 - 同时用到了IP代理,emmm,这里可能需要一笔钱,要是家里有矿就不谈了,家里没矿的买一两天的玩玩也就行了,IP代理见: 无忧代理 ps: 不是打广告,就他们家的比较便宜。
- 网速允许的情况下,使用IP代理一天可以爬上千万的转发内容。
环境和架构:
开发语言:python 3.6
开发环境:ubantu 16.04系统, 4G内存
数据库: MongoDB 3.2.0
编辑器: pycharm2018
使用说明:
- 先装一个MongoDB, 然后启动就好了。
- linux环境下装scrapy可太简单了,直接pip install scrapy 就可以了,前提是python装好了,windows的小伙伴也不要着急装,先看看网上的windows装scrapy的教程,错了就卸了重装就好了,毕竟我也是这样过来的。
- 要是用我的代码的话,要记得在setting.py里面把Mongodb的账号、密码改一下,还有IP代理的账号。
运行截图:
因为是之前写的,还没截图,下次补上