文本处理
- 从data文件夹中读取每一个text文件并分词
- 用TextRank4Keyword类对文本进行分词并提取关键词,并将提取出的关键词写到output文件夹中的同名文件中
- 读取output中的关键词文件,并建立词向量统计词频
- 将统计出的词频写入到Word frequency.txt文件中
文本检索
生成词云 words cloud
import os
from wordcloud import WordCloud
if __name__ == '__main__':
rootdir = 'output'
list = os.listdir(rootdir)
wordsdic=''
for i in range(0, len(list)):
path = os.path.join(rootdir, list[i])
if os.path.isfile(path):
tempf=open(path,mode='r',encoding='utf-8')
temptext=tempf.read()
onelist=str(temptext[1:-1]).split(",")
for onew in onelist:
wordsdic=wordsdic+','+onew
wc = WordCloud(
background_color="white",
max_words=300,
min_font_size=15,
max_font_size=50,
width=800,
height=700
)
wc.generate(wordsdic)
wc.to_file("words_cloud.png")
完整代码:https://download.csdn.net/download/Datapad/67637102