针对前面学习的 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)、中英文分词后进行词频统计(包含词云制作)、文本分词后进行关键词提取之TF-IDF算法、关键词提取之TextRank算法,我们已经掌握了中文文本处理的各个步骤的方法,提取关键词的算法及其原理,制作词云的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成文本处理后提取关键词的操作:
import jieba
import os
from wordcloud import WordCloud #词云
from imageio import imread #导入图片进行处理
import matplotlib.pyplot as plt # 利用Python的Matplotlib包进行绘图
from jieba.analyse import *
#解决matplotlib绘图中文显示问题
plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
def stopwordslist(filepath): # 定义函数创建停用词列表
stopword = [line.strip() for line in open(filepath, 'r').readlines()] #以行的形式读取停用词表,同时转换为列表
return stopword
filepath = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt'
stopwordslist(filepath) #调用函数
for filename in os.listdir(r'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/中文'): #遍历文件夹中文件
fullpath = path + '/'+ filename
print(fullpath)
with open(fullpath,encoding='