爬取李子柒微博评论并分析
微博主要分为网页端、手机端和移动端。微博网页版反爬太厉害,因此选择爬取手机端。
1 需求
爬取李子柒微博中视频的评论信息,并做词频分析。
2 方法
2.1 运行环境
运行平台: Windows
Python版本: Python3.7
IDE: PyCharm
2.2 爬取数据
首先要先找到自己的cookie,认识手机微博端的数据是如何进行加载的。手机微博是使用Ajax动态加载数据。这里以李子柒置顶视频为例,地址为:https://m.weibo.cn/detail/4206005635846050
在开发者工具下,network-xdr下找到以下信息:
此外,还需要对比request url的组成,找出翻页规律:
Request URL: https://m.weibo.cn/comments/hotflow?id=4206005635846050&mid=4206005635846050&max_id_type=0``Request URL: https://m.weibo.cn/comments/hotflow?id=4206005635846050&mid=4206005635846050&max_id=849522136223909&max_id_type=0 https://m.weibo.cn/comments/hotflow?id=4206005635846050&mid=4206005635846050&max_id