由于网页版的微博存在滚动刷新的特性,使用传统的获取html再解析的方法不再可行,而移动版的微博每页微博条数是固定的,不存在网页版滚动刷新的现象,而且URL设计更加简单,通过修改URL重复模拟登录即可实现翻页效果。本文最终实现了三个函数,分别是爬取博主主页信息、爬取关注人信息、爬取原创微博信息。
首先登录 https://weibo.cn,在登录时页面可能一直不响应,我也遇到了相同的问题,我是用第三方软件登录然后绑定到我的微博实现了登录,登录的目的是获取cookie,然后使用这个cookie模拟登录微博,爬取微博内容。
获取cookie的方式:
step1:登录微博移动版
step2:打开“检查”工具 ->右键重新加载->Network->Request Headers->Cookie
注意:cookie的时效不超过24小时,所以每次运行爬虫需要更新
getcookie.jpg
URL分析:
以 @追风少年刘全有 的微博为例
在移动版微博中,博主的主页URL是 https://weibo.cn/u/2150511032,同时使用https://weibo.cn/2150511032也可以访问,其中数字串是唯一标识博主的user_id;
刘全有关注的人网页的URL为https://weibo.cn/2150511032/follow?page=1&#