主要工作内容
- 解决了词云生成读文件的问题
在读文件时,有数据编码格式的问题,因此专门写了一个方法对基本上所有文件读。 - 将之前生成词云多次的读写进一步浓缩,缩减为在一个方法内,对内存变量进行多次的独写和修改,进一步简化了代码结构同时加快了运行速度。
- 核心代码如下:
# name为文件名称, key为关键字
def dataForWordCloud(name, key = ''):
inputs = readTxt(name)
jieba.analyse.set_stop_words(FileFeaturePath)
pattern = re.compile(r'[^\u4e00-\u9fa5]')
outputs = ""
for line in inputs:
output = re.sub(pattern, "", line)
seg = jieba.cut(output.strip(), cut_all=False)
# 分好词之后之间用空格隔断
output = ' '.join(seg)
outputs = outputs + str(output)
# print(outputs)
keywords = jieba.analyse.extract_tags(outputs, topK=30, withWeight=True, allowPOS=())
# print(keywords)
return keywords
返回值为数组格式,与之前写好的词云生成模板正好可以配套使用,详细调用方法见项目github地址的说明文件以及test目录下的调用demo