手动登录版微博爬虫

    之前的贴吧爬虫并不十分费力的原因是贴吧不需要登录,或者说在只需要爬取作者以及标题时,以游客身份进入贴吧就足够了。但是当我们想做一个用于爬取微博搜索结果的爬虫时,问题出现了。根据微博的机制,游客身份的权限只能查看搜索结果的前几条,不能查看完整的搜索结果,这里就必须登录了。


    其实登录貌似一直是爬虫的大问题,各种网站也针对爬虫做了很多防爬的措施,所以要实现完全自动登录十分的复杂。所以立足于‘解决问题就好’的观点之上,在这里提供手动登录的方法。


    首先我们需要谷歌浏览器的开发者工具如图。



    





    在Network下勾选Preserve log,我们就能看见各种发出去和接受到的包啦。






    在我们手动登录微博之后,会发现一大串的包,别着急,随便在中间找到一个push_count.json的包我们就能发现里面储存了我们登录的cookies。


    




    接下来只要复制这段cookies进入我们爬虫中request的header里就好了。

import urllib2
import re


cookie = '你的cookie'
headers = {
   'User-Agent': '随意填一个喽',
   'cookie': cookie
}
def url() :
    urls = []
    url = '除去页码的url'
    for i in range(爬取的页码):
        urls_now = url + str(i+1) 
        urls.append(urls_now)
    return urls
        
    
def visit(url):
    req = urllib2.Request(url, headers=headers)
    text = urllib2.urlopen(req).read()
    return text




  之后运行visit()函数就成啦。不过缺点是每次都需要手动登录抓取cookies再填进来,有些麻烦。并且并没有弄懂微博的反爬机制,爬取的页数多了之后还是会被微博发现问我是不是机器人-.-这些问题以后慢慢再解决吧~

ps.为啥验证码算出来永远是负数

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值