python3 asyncio异步新浪微博爬虫WeiboSpider

一些废话

之前写的用python3+urllib写的多线程微博(传送门),后面发现登录账号频繁被403,所以解决登录问题迫在眉睫。而且python的“多线程”并不那么多线程,最近因为刚需,需要稳定的微博爬虫,所以琢磨了一下使用selenium+aiohttp+redis写了一个使用asyncio的新浪爬虫。

简介

这里不多废话,大概介绍一下怎么做的。大致是:

登录

通过weibo.com登录界面登录,因为weibo.cn登录如果需要验证的话是要类似于解锁那样验证的,不好做。

而weibo.com只要输入验证码,而验证码可以通过yundama来验证,yundama也不贵,验证一次大概一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

然后把cookies保存在redis共享

抓取

使用了aiohttp,毕竟python的协程比多线程更给力,爬虫就是个频繁io的过程,自然用协程比多线程快了不少。

解析用的是bs4,解析后的数据放到kafka上,想存哪存哪~

talk is cheap, show you the code

这里就不说具体怎么做和使用了,README.md上有使用不走,感兴趣的看源码去吧。

github:https://github.com/zhujiajunup/WeiboSpider

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值