中文文本处理总结(读取文本、文本预处理、分词、去除停用词)
针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:
import jieba
import re
import jieba.posseg as pseg
filename = '白雪公主片段'
filepath1 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/白雪公主片段.txt'
filepath2 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt'
def stopwordslist(filepath2): # 定义函数创建停用词列表
stopword = [line.strip() for line in open(filepath2, 'r').readlines()] #以行的形式读取停用词表,同时转换为列表
return stopword
def pretext(filename,filepath1): #定义函数
try:
with open(filepath1,encoding='UTF-8') as file:
contents = file.read() #读取文本文件
print('【读取的文本为:】'+'\n'+contents