中文文本处理总结（读取文本、文本预处理、分词、去除停用词）

最新推荐文章于 2024-07-10 17:20:46 发布

SK-Berry

最新推荐文章于 2024-07-10 17:20:46 发布

阅读量1.5w

点赞数 24

文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/sk_berry/article/details/105157066

版权

本文总结了中文文本处理的步骤，包括读取文本、预处理、使用jieba进行分词以及去除停用词。通过示例展示了如何操作，最终得到处理后的文本结果。

摘要由CSDN通过智能技术生成

中文文本处理总结（读取文本、文本预处理、分词、去除停用词）

针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果，我们已经掌握了中文文本处理的各个步骤的方法，现在对以上学习的知识做个总结，用一个例子把它们汇总在一起，完成对中文的文本处理：

import jieba
import re
import jieba.posseg as pseg

filename = '白雪公主片段'    
filepath1 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/白雪公主片段.txt'
filepath2 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt' 

def stopwordslist(filepath2):    # 定义函数创建停用词列表
    stopword = [line.strip() for line in open(filepath2, 'r').readlines()]    #以行的形式读取停用词表，同时转换为列表
    return stopword

def pretext(filename,filepath1):     #定义函数
    try:
        with open(filepath1,encoding='UTF-8') as file:
            contents = file.read()                      #读取文本文件
            print('【读取的文本为：】'+'\n'+contents