手动登录版微博爬虫

最新推荐文章于 2024-04-20 22:52:46 发布

li_huifei

最新推荐文章于 2024-04-20 22:52:46 发布

阅读量2k

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/li_huifei/article/details/78194129

版权

学习笔记专栏收录该内容

18 篇文章 0 订阅

订阅专栏

之前的贴吧爬虫并不十分费力的原因是贴吧不需要登录，或者说在只需要爬取作者以及标题时，以游客身份进入贴吧就足够了。但是当我们想做一个用于爬取微博搜索结果的爬虫时，问题出现了。根据微博的机制，游客身份的权限只能查看搜索结果的前几条，不能查看完整的搜索结果，这里就必须登录了。

其实登录貌似一直是爬虫的大问题，各种网站也针对爬虫做了很多防爬的措施，所以要实现完全自动登录十分的复杂。所以立足于‘解决问题就好’的观点之上，在这里提供手动登录的方法。

首先我们需要谷歌浏览器的开发者工具如图。

在Network下勾选Preserve log，我们就能看见各种发出去和接受到的包啦。

在我们手动登录微博之后，会发现一大串的包，别着急，随便在中间找到一个push_count.json的包我们就能发现里面储存了我们登录的cookies。

接下来只要复制这段cookies进入我们爬虫中request的header里就好了。

import urllib2
import re


cookie = '你的cookie'
headers = {
   'User-Agent': '随意填一个喽',
   'cookie': cookie
}
def url() :
    urls = []
    url = '除去页码的url'
    for i in range(爬取的页码):
        urls_now = url + str(i+1) 
        urls.append(urls_now)
    return urls
        
    
def visit(url):
    req = urllib2.Request(url, headers=headers)
    text = urllib2.urlopen(req).read()
    return text

之后运行visit（）函数就成啦。不过缺点是每次都需要手动登录抓取cookies再填进来，有些麻烦。并且并没有弄懂微博的反爬机制，爬取的页数多了之后还是会被微博发现问我是不是机器人-.-这些问题以后慢慢再解决吧~

ps.为啥验证码算出来永远是负数

li_huifei

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
手动登录版微博爬虫

之前的贴吧爬虫并不十分费力的原因是贴吧不需要登录，或者说在只需要爬取作者以及标题时，以游客身份进入贴吧就足够了。但是当我们想做一个用于爬取微博搜索结果的爬虫时，问题出现了。根据微博的机制，游客身份的权限只能查看搜索结果的前几条，不能查看完整的搜索结果，这里就必须登录了。其实登录貌似一直是爬虫的大问题，各种网站也针对爬虫做了很多防爬的措施，所以要实现完全自动登录十分的复杂。所以立足于‘解决问题就
复制链接

扫一扫