import pandas as pd
df = pd.read_csv('小红书评论.csv') # 读取小红书评论数据
text = ' '.join(df['内容'].astype(str)).strip() # 将内容列所有数据合成字符串
print(text)
使用jieba库,对文本数据进行分词,并统计出现频数
import jieba
from collections import Counter
import pandas as pd
def count_words(text):
# 使用jieba进行分词
words = jieba.cut(text)
# 使用Counter进行词频统计
word_counts = Counter(words)
return word_counts #返回的是一个字典
def main():
# 读取文本文件
df = pd.read_csv('小红书评论.csv')
text = ' '.join(df['内容'].astype(str))
# 对文本进行词频统计
word_counts = count_words(text)
# 打印出现次数最多的前N个词语及其出现次数
top_n = 100 # 设置输出前N个词语
print("出现次数最多的{}个词语:".format(top_n))
for word, count in word_counts.most_common(top_n):
print("{}: {}".format(word, count))
if __name__ == "__main__":
m