词云生成
词云生成调用了python中的几个功能强大的包,实现文本切割、图像处理和词云生成。
- jieba
jieba是python中用于中文文本分词的模块,支持多种切分模式,并且可以自定义停用词表,去除无意义的词。 - scipy
scipy是python中一个用于科学计算的包,其中的misc模块中提供了一些图像处理的函数,这里主要用了imread()和imsave()函数进行图像读取、二值化和存储。 - wordcloud
wordcloud是一个词云生成的包,可以根据输入文本串生成词云图。
下面介绍代码(分词和词云生成):
分词采用python的jieba模块,实现文本清洗,分词和去停用词处理。
class word_spliter():
def __init__(self,text,stop_path = sw_path):
self.text = text
self.stop_word = stop_path
def get_stopword(self):
stopwords = {}.fromkeys([line.rstrip() for line in open(self.stop_word, encoding='utf-8')])
return stopwords
def text_wash(self):
self.text = self.text.encode(encoding="utf-8",errors='ignore').decode(&