每日一滴(实践)——NLP之处理停用词

停用词:

顾名思义,没用的单词,也叫停止词;即,执行信息检索任务或其他自然语言任务时需要过滤掉的词(例如:‘to’,‘is’,‘the’);这些词对句子整体的理解没多大作用,考虑到处理效率,则需要在处理数据前将这些词去掉(这也是数据标准化中的一步)。

处理停用词

即将待处理文本中的停用词去掉。
代码:

from nltk.corpus import stopwords
stops=set(stopwords.words('english'))
words=['you are a boy','to']
print([word for word in words
       if word not in stops])

解释代码:
stopwords()是一个语料库,里面是各种语言的停用词;
words()是实例stopwords()的一个函数,参数为fileid;提供实参为’english’则指的是 在英语文件中存的所有停止词;没有参数则指所有语言的停用词。
set()函数是创建一个无序、不重复的元素集(性质和集合类似);
1、
stopwords.words(‘english’)将英语停用词提供给set()函数
set()函数拿这些停用词创建集合,并返回一个集合给变量stops
2、[word for word in words if word not in stops])
是将在words中的元素和不在stops中的元素放在一个元组中。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值