之前的贴吧爬虫并不十分费力的原因是贴吧不需要登录,或者说在只需要爬取作者以及标题时,以游客身份进入贴吧就足够了。但是当我们想做一个用于爬取微博搜索结果的爬虫时,问题出现了。根据微博的机制,游客身份的权限只能查看搜索结果的前几条,不能查看完整的搜索结果,这里就必须登录了。
其实登录貌似一直是爬虫的大问题,各种网站也针对爬虫做了很多防爬的措施,所以要实现完全自动登录十分的复杂。所以立足于‘解决问题就好’的观点之上,在这里提供手动登录的方法。
首先我们需要谷歌浏览器的开发者工具如图。
在Network下勾选Preserve log,我们就能看见各种发出去和接受到的包啦。
在我们手动登录微博之后,会发现一大串的包,别着急,随便在中间找到一个push_count.json的包我们就能发现里面储存了我们登录的cookies。
接下来只要复制这段cookies进入我们爬虫中request的header里就好了。
import urllib2
import re
cookie = '你的cookie'
headers = {
'User-Agent': '随意填一个喽',
'cookie': cookie
}
def url() :
urls = []
url = '除去页码的url'
for i in range(爬取的页码):
urls_now = url + str(i+1)
urls.append(urls_now)
return urls
def visit(url):
req = urllib2.Request(url, headers=headers)
text = urllib2.urlopen(req).read()
return text
之后运行visit()函数就成啦。不过缺点是每次都需要手动登录抓取cookies再填进来,有些麻烦。并且并没有弄懂微博的反爬机制,爬取的页数多了之后还是会被微博发现问我是不是机器人-.-这些问题以后慢慢再解决吧~
ps.为啥验证码算出来永远是负数