开发工具
**Python版本:**3.6.4
相关模块:
argparse模块;
requests模块;
jieba模块;
wordcloud模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
原理简介
一. 爬虫目标
爬取某条微博底下的评论数据。
二. 模拟登录
爬像新浪微博这样的大网站,不用想就知道不登录肯定是爬不了多少数据的(事实就是不登录的话只能爬第一页的评论数据)。
这里为方便起见,我们选择用微博的移动端接口进行模拟登录。即:
https://passport.weibo.cn/sig…
界面如下:
简单抓包可以发现登录链接为: