python中调用jieba对文章进行分词和去停

该博客展示了如何使用Python读取文件并利用jieba进行分词,同时去除停用词。通过输入文件名,程序读取文本,检查文件是否存在,然后进行分词操作。接着,程序读取去停用词文件,过滤掉停用词,输出处理后的文本。整个过程涉及到文件I/O、路径处理和jieba分词库的应用。
摘要由CSDN通过智能技术生成

        主要考察了应用代码对文件进行读取操作以及对jieba和os模块中函数的调用

下面来看代码:

import os,jieba
def dufile():#读文件函数
    a=input("输入文件名:") #a.txt
    print("文件是否存在:"+str(os.path.isfile(os.getcwd()+"\\"+a)))#用两个\\表示并非转义字符
    #用的时候好像"/""\"这两都可以读文件
    b=open(os.getcwd()+"/"+a,"r",encoding="utf-8")  #getcwd()当前python工作目录
    #utf-8编码格式可显示中文
    bg=b.read()
    b.close()
    return bg
bg=dufile()#将返回值赋给一个变量
fc=jieba.lcut(bg)#分词后返回列表
print("请输入去停的文件名")
qt=dufile()#stopword.txt
out=""#用一个字符串变量存放文本
for a in fc:#用a遍历分词后的文本
    if a not in qt:#若a不在去停文本中
        if a !="\n":#换行符不管它
            out+=a#将去停后的文本存放在out中
            out+=" "#加个空格更清晰一些
print(out)

b=open(os.getcwd()+"/"+a,"r",encoding="utf-8") 其中os.getcwd()返回了当前路径,将文本存放在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一瞬间、心凉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值