中英文分词后进行词频统计（包含词云制作）

最新推荐文章于 2023-04-28 07:48:38 发布

SK-Berry

最新推荐文章于 2023-04-28 07:48:38 发布

阅读量5.2k

点赞数 12

文章标签： python

本文链接：https://blog.csdn.net/sk_berry/article/details/105357629

版权

本文介绍了如何使用Python进行英文和中文的词频统计，并制作词云。通过NLTK库处理英文文本，展示词频统计及词云绘制过程。对于中文，文章指出在matplotlib和wordcloud中处理中文的常见问题，并提供了错误修正方法，包括添加字体支持，以正确显示中文字符。

摘要由CSDN通过智能技术生成

文章目录

在之前的分词学习后，开始处理提取的词语进行词频统计，因为依据词频是进行关键词提取的最简单方法：

1、英文词频统计和词云制作

词云，又称文字云、标签云，是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现，形成关键词的渲染形成类似云一样的彩色图片，从而一眼就可以领略文本数据的主要表达意思。

from nltk import word_tokenize  #分词处理
from nltk.corpus import stopwords  #停用词
from nltk import FreqDist    #统计词频
from wordcloud import WordCloud   #词云
from imageio import imread   #导入图片进行处理
import matplotlib.pyplot as plt  # 利用Python的Matplotlib包进行绘图

paragraph = 'Water has the property of dissolving sugar and sugar has the property being dissolved by water.'.lower()
cutwords1 =  word_tokenize(paragraph)
print('【原句子为：】'+ '\n'+ paragraph)
print('\n【NLTK分词结果：】')
print(cutwords1)

interpunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']   #定义符号列表
cutwords2 = [word for word in cutwords1 if word not in interpunctuations]   #去除标点符号
print('\n【NLTK分词后去除符号结果：】')
print(cutwords2)

stops = set(stopwords.words("english"))
words_lists = [word for word in cutwords2 if word not in stops]  #判断分词在不在停用词列表内
print('\n【NLTK分词后去除停用词结果：】')
print(words_lists)

freq = FreqDist(words_lists) 
print(&