一步一步教你做微博用户画像分析：Python微博爬虫+词云生成

最新推荐文章于 2024-08-10 00:12:10 发布

置顶

black_kyatu

最新推荐文章于 2024-08-10 00:12:10 发布

阅读量8.6k

点赞数 18

分类专栏： python 文章标签： python https 微博爬虫

本文链接：https://blog.csdn.net/black_kyatu/article/details/105939550

版权

本文详细介绍了如何使用Python编写微博爬虫，抓取人民日报的微博文本，并进行词频分析，生成词云图。内容包括微博爬虫的编写，如数据来源分析、请求参数解析、反爬策略应对，以及词云图的生成过程。通过爬虫获取的数据显示，新冠肺炎是近期人民日报微博的重要话题。

摘要由CSDN通过智能技术生成

Python练习项目

目标

用爬虫程序抓取目标用户人民日报的微博文本，通过分析词频，生成直观的词云图。

编写Python微博爬虫

所谓爬虫程序，其实就是通过计算机运行程序，模拟用户浏览网页的行为，向特定网站发送连接请求，获取网站返回的数据。

所以首先需要确定发送请求的对象，也就是请求的目标网址
其次需要确定发送请求的url中所需要携带的请求参数，从而实现检索特定网页信息
最后则是如何从返回的网页数据中，定位出自己需要的有效信息

注意：微博的接口可能会发生变化，所以请不要盲目照抄，建议按照下述流程独立分析。

数据来源

微博移动版网页（点此跳转）
内容简洁，便于分析，因此选用移动版网页作为爬取对象。

微博列表请求分析

打开目标用户的移动版微博主页：人民日报

注意：此处需要退出微博登录来保证请求内容的普适性。

F12打开开发者工具，这里使用的是谷歌浏览器。选中最上方的Network标签页，刷新页面来监测网络连接请求。
在这里插入图片描述
通过分析preview和response两个标签页的内容，可以确定获取微博列表的链接请求为：
https://m.weibo.cn/api/container/getIndex?uid=2803301701&t=0&luicode=10000011&lfid=100103type%3D1%26q%3D%E4%BA%BA%E6%B0%91%E6%97%A5%E6%8A%A5&type=uid&value=2803301701&containerid=1076032803301701

在开发者工具中查看该请求的头部信息，下拉到最后查看请求参数：
在这里插入图片描述
分析到请求参数一共有七个：

uid: 2803301701
t: 0
luicode: 10000011
lfid: 100103type=1&q=人民日报
type: uid
value: 2803301701
containerid: 1076032803301701
其中uid和value都是用来唯一标识用户的，内容相同，lifd是用来标识微博用户名，containerid用来标识不同范围的微博， $\rm107603+uid$ 表示公开的所有微博，其他参数则都是默认无需变化。
去掉参数后的请求地址为
https://m.weibo.cn/api/container/getIndex?
请求地址+特定参数即可访问特定用户的微博列表。

应答报文分析

通过开发者工具可以发现微博服务器回应请求的是一个较为复杂的json格式文件。
不要慌，一步步分析。
首先，通过request库的get方法，向上述分析出的url地址发送请求，获得回应的字符串文件，代码如下：

import requests
import json
url = 'https://m.weibo.cn/api/container/getIndex?'

#headers信息防止触发反爬虫机制
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}

parameter = {
   
    'uid': '2803301701',
    't': '0',
    'luicode': '10000011',
    'lfid': '100103type=1&q=人民日报',
    'type': 'uid',
    'value': '2803301701',
    'containerid': '1076032803301701',
    'page_type': '60',
    'page': '1'
}
respones = requests.get(url + urlencode(parameter), headers=headers)
#通过json库的loads方法将返回的字符串转换为字典数据格式
data = json.loads(respones.text)