Python采集微博评论做词云图

最新推荐文章于 2025-01-18 10:34:17 发布

魔王不会哭

最新推荐文章于 2025-01-18 10:34:17 发布

阅读量803

点赞数 8

分类专栏： python 文章标签： python 开发语言 pycharm 学习

本文链接：https://blog.csdn.net/python56123/article/details/135461414

版权

本文介绍了如何使用Python 3.10和PyCharm进行微博评论的爬取，通过requests、wordcloud和jieba库，实现数据采集和词云图的制作。文章详细讲解了数据来源分析、多页数据采集的请求链接规律，以及代码实现步骤，旨在帮助读者掌握Python爬虫技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

嗨喽~大家好呀，这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取

环境使用:

Python 3.10
Pycharm

第三方模块使用:

import requests >>> pip install requests
import wordcloud >>> pip install wordcloud
import jieba >>> pip install jieba

爬虫基本流程:

一. 数据来源分析

1. 明确需求: 明确采集的网站以及数据内容
    - 网址: https://weibo.com/2803301701/NxcPMvW2l
    - 数据: 评论内容
2. 抓包分析: 通过开发者工具进行抓包
    - 打开开发者工具: F12
    - 刷新网页
    - 通过关键字查找对应的数据
        关键字: 评论的内容
    数据包地址: https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4979141627611265&is_show_bulletin=2&is_mix=0&count=10&uid=2803301701&fetch_level=0&locale=zh-CN

二. 代码实现步骤

1. 发送请求 -> 模拟浏览器对于url地址发送请求
2. 获取数据 -> 获取服务器返回响应数据
3. 解析数据 -> 提取评论内容
4. 保存数据 -> 保存本地文件 (文本 csv Excel 数据库)

多页数据采集: 分析请求链接变化规律(主要看请求参数)

翻页: 点击下一页 / 滑动
flow: 0 多了这个参数
max_id: 第一页是没有 第二/三页一串数字
count: 第一页 10 第二/三页 20

代码展示

数据采集

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：926207505
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# 导入数据请求模块
import requests
import pandas as pd

# 创建空列表
lis = []
def get_content(max_id):
    """1. 发送请求 -> 模拟浏览器对于url地址发送请求"""
    # 模拟浏览器
    headers = {
   
        # Referer 防盗链
        'Referer':

最低0.47元/天解锁文章