生成词云还是有点意思的,这里先看看三种模式。
在读取文件时,应该生成的是str类型,这样才可以正确地使用cut函数。
import jieba
str = "今天研究这个词云研究了好久,中文文档的录入是个问题,要注意格式是不是UTF-8,还有注意cut的方式"
#使用自定义字典
#jieba.load_userdict('dict.txt')
ex_list1 = jieba.cut(str)
ex_list2 = jieba.cut(str , cut_all= True)
ex_list3 = jieba.cut_for_search(str)
print("精准模式:"+'/'.join(ex_list1))
print("全模式:"+'/'.join(ex_list2))
print("搜索引擎模式:"+'/'.join(ex_list3))
type(ex_list1)可知cut生成的是一个generator,python中的generator保存的是算法,真正需要计算出值的时候才会去往下计算出值。有一种方法是:把一个列表生成式的[]改成(),就创建了一个generator。
结果如图:
下面,我们通过TXT文件,生成一个简单的词云图,代码如下:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
pat