中文词频统计及词云制作

最新推荐文章于 2022-08-08 18:12:06 发布

weixin_30252155

最新推荐文章于 2022-08-08 18:12:06 发布

阅读量144

点赞数

原文链接：http://www.cnblogs.com/seed-ge/p/7594650.html

版权

1.中软国际华南区技术总监曾老师还会来上两次课，同学们希望曾老师讲些什么内容？

我希望老师能讲下他自己做项目的经验与需要注意的地方，或者说说我们以后再这方面的发展的可以先从哪方面开始做起。

2.中文分词

下载一中文长篇小说，并转换成UTF-8编码。

使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

import jieba
txt=open('追风筝的女孩.txt','r',encoding='utf-8')
jianai=txt.read()
for i in ',.""!?':
    jianai=jianai.replace(i,' ')
jianai=list(jieba.cut(jianai))
ll={'嗯','女孩','我','风筝','开心','或,'离开','认为','牛逼','放飞,'追','阳光'}
dic={}
keys=set(jianai)-ll
for i in keys:
    dic[i]=jianai.count(i)
items=list(dic.items())
item.sort(keys=lambda x:x[1],reverse=True)
for i in range(10):
    print(item[i])
jianai.close()

使用wordcloud库绘制一个词云

#coding:utf-8
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

text =open(r"C:\Users\Administrator\Desktop\sheng.txt",'r').read()

wordlist = jieba.cut(text,cut_all=True)
wl_split = "/".join(wordlist)

mywc = WordCloud().generate(text)
plt.imshow(mywc)
plt.axis("off")
plt.show()