Python学习之中文词云(jieba)

工具包:jieba分词库、Jupyter Notebook。

因为 jieba 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功 。

功能:对文本中文词做词频统计显示 词云。

#绘制词云
from wordcloud import WordCloud
from PIL import Image 
import numpy as np
import re
import matplotlib.pyplot as plt
import jieba
file=open('/Users/John/Desktop/十九大报告.txt','r',encoding='utf-8')
text=file.read()
file.close()
#print(text)
word_list = jieba.cut(text)
# 分词后在单独个体之间加上空格
result = " ".join(word_list)
text=result
words=text.split()  #将字符串打断成单词
#words1=[word.lower() for word in words]  #大写转小写
words2=[re.sub("[,。!;?、\“\”]",'',word) for word in words]#去掉标点符号
words_index=set(words)  #去重复
dic={index:words2.count(index) for index in words_index} #统计词频
graph=np.array(Image.open('/Users/John/Desktop/danghui.jpg'))#轮廓图片读成像素矩阵
wc=WordCloud(background_color='White',mask=graph, font_path ='/Users/John/Desktop/HYQiHei-25JF.ttf',max_words=200,max_font_size=150)#设置词云背景颜色及形状
wc.generate_from_frequencies(dic)#读进词频数据
wc.to_file("/Users/John/Desktop/zhongwenciyun.jpg")#保存图片
#展示图片
plt.imshow(wc)
plt.axis("off")#去除坐标轴
plt.show()

运行结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值