基于小红书评论的文本词语频数挖掘和词云图

最新推荐文章于 2024-11-01 09:57:23 发布

努力学习各种软件

最新推荐文章于 2024-11-01 09:57:23 发布

阅读量1.1k

点赞数 4

分类专栏：爬虫案例文章标签：数据分析 python

本文链接：https://blog.csdn.net/m0_57265868/article/details/136454994

版权

本文介绍了如何使用Python的pandas和jieba库对小红书评论数据进行分词，统计高频词汇，并生成词云图来可视化这些高频词。主要关注了大学生就业、考研考公等热门话题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pandas as pd
df = pd.read_csv('小红书评论.csv')  # 读取小红书评论数据
text = ' '.join(df['内容'].astype(str)).strip()  # 将内容列所有数据合成字符串
print(text)

使用jieba库，对文本数据进行分词，并统计出现频数

import jieba
from collections import Counter
import pandas as pd

def count_words(text):
    # 使用jieba进行分词
    words = jieba.cut(text)
    # 使用Counter进行词频统计
    word_counts = Counter(words)
    return word_counts  #返回的是一个字典


def main():
    # 读取文本文件
    df = pd.read_csv('小红书评论.csv')
    text = ' '.join(df['内容'].astype(str))

    # 对文本进行词频统计
    word_counts = count_words(text)

    # 打印出现次数最多的前N个词语及其出现次数
    top_n = 100  # 设置输出前N个词语
    print("出现次数最多的{}个词语：".format(top_n))
    for word, count in word_counts.most_common(top_n):
        print("{}: {}".format(word, count))

if __name__ == "__main__":
    m