简介
爬取微博m站评论。由于api限制只能爬取前100页,如果想要更全数据需爬pc端。
工具
python 3.5
requests库
re库
步骤
1. 登陆保存cookie
首先,打开m.weibo.cn. 输入用户名密码登陆之后,打开chrome开发者工具(Developer Tool),在Network里面找到m.weibo.cn这个地址,把cookie保存下来。
2. 找翻页规律
如图所示,利用开发者工具找到“show?id=...”,第一行的url就是要请求的地址。
多翻两页就会发现,“https://m.weibo.cn/api/comments/show?id=4073157046629802”这一串是不变的,只有后面的“page=”随翻页而变化。
我用的是.format()指令来实现url变化。
3. 写代码
上面两步完成后,接下来就可以写爬虫了。
(1)设置headers
为了不让网站发现我们是爬虫,需要设置user-agent和cookie,代码如下:headers = {'Cookies':'Your cookie',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chro