关于python-scrapy框架爬取微博转发的信息

代码请移步GitHub SinaTranspondSpider

爬虫的功能:

  • 将转发某条的微博的信息信息爬取下来,主要是转发者转发时的文字内容,转发人的uid, 转发
    后的点赞数,以及转发的时间。
  • 同时用到了IP代理,emmm,这里可能需要一笔钱,要是家里有矿就不谈了,家里没矿的买一两天的玩玩也就行了,IP代理见: 无忧代理     ps: 不是打广告,就他们家的比较便宜。
  • 网速允许的情况下,使用IP代理一天可以爬上千万的转发内容。


环境和架构:

开发语言:python 3.6
开发环境:ubantu 16.04系统,   4G内存
数据库: MongoDB 3.2.0
编辑器: pycharm2018


使用说明:

  • 先装一个MongoDB, 然后启动就好了。
  • linux环境下装scrapy可太简单了,直接pip install scrapy 就可以了,前提是python装好了,windows的小伙伴也不要着急装,先看看网上的windows装scrapy的教程,错了就卸了重装就好了,毕竟我也是这样过来的。
  • 要是用我的代码的话,要记得在setting.py里面把Mongodb的账号、密码改一下,还有IP代理的账号。


运行截图:

因为是之前写的,还没截图,下次补上

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值