python去除中文停用词_删除停止词Python

本文介绍了如何使用Python简洁地处理DataFrame,去除中文文本中的停用词。通过导入pandas和nltk库,利用map和filter函数,仅用两行代码即可完成数据清洗,适合Python初学者。
摘要由CSDN通过智能技术生成

你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决。在import pandas as pd

from nltk.corpus import stopwords

创建停止语列表

^{pr2}$

输出['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

我将演示如何使用约翰·济慈的一首诗的前几行,这是一个.txt文件,我把它读入数据帧。在df = pd.read_table('keats.txt', error_bad_lines = False, header = -1 , names = ['poem'], na_filter= True)

df

{a1}

将新列添加到df call itcleaned,其中每一行都是小写并按空格拆分

这实际上是您处理的第一步

您可以使用

1)lambda运算符df['cleaned'] = list(map(lambda x: x.lower().split(), df.poem))

或2)listcompdf['cleaned'] = [x.lower().split() for x in df.poem]

FZGe4.png

第二步也是最后一步是过滤停止词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值