基于小红书评论的文本词语频数挖掘和词云图

本文介绍了如何使用Python的pandas和jieba库对小红书评论数据进行分词,统计高频词汇,并生成词云图来可视化这些高频词。主要关注了大学生就业、考研考公等热门话题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd
df = pd.read_csv('小红书评论.csv')  # 读取小红书评论数据
text = ' '.join(df['内容'].astype(str)).strip()  # 将内容列所有数据合成字符串
print(text)

使用jieba库,对文本数据进行分词,并统计出现频数

import jieba
from collections import Counter
import pandas as pd

def count_words(text):
    # 使用jieba进行分词
    words = jieba.cut(text)
    # 使用Counter进行词频统计
    word_counts = Counter(words)
    return word_counts  #返回的是一个字典


def main():
    # 读取文本文件
    df = pd.read_csv('小红书评论.csv')
    text = ' '.join(df['内容'].astype(str))

    # 对文本进行词频统计
    word_counts = count_words(text)

    # 打印出现次数最多的前N个词语及其出现次数
    top_n = 100  # 设置输出前N个词语
    print("出现次数最多的{}个词语:".format(top_n))
    for word, count in word_counts.most_common(top_n):
        print("{}: {}".format(word, count))

if __name__ == "__main__":
    m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力学习各种软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值