中文文本处理总结(读取文本、文本预处理、分词、去除停用词)

本文总结了中文文本处理的步骤,包括读取文本、预处理、使用jieba进行分词以及去除停用词。通过示例展示了如何操作,最终得到处理后的文本结果。
摘要由CSDN通过智能技术生成
中文文本处理总结(读取文本、文本预处理、分词、去除停用词)

 针对前面学习的 Python读取文本内容中文文本预处理利用jieba对中文进行分词中文分词后去除停用词调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:

import jieba
import re
import jieba.posseg as pseg

filename = '白雪公主片段'    
filepath1 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/白雪公主片段.txt'
filepath2 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt' 

def stopwordslist(filepath2):    # 定义函数创建停用词列表
    stopword = [line.strip() for line in open(filepath2, 'r').readlines()]    #以行的形式读取停用词表,同时转换为列表
    return stopword

def pretext(filename,filepath1):     #定义函数
    try:
        with open(filepath1,encoding='UTF-8') as file:
            contents = file.read()                      #读取文本文件
            print('【读取的文本为:】'+'\n'+contents
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值