每日一滴（实践）——NLP之处理停用词

最新推荐文章于 2024-02-25 08:24:36 发布

初学者wwl

最新推荐文章于 2024-02-25 08:24:36 发布

阅读量1.4k

点赞数 3

分类专栏： NLP 文章标签：其他

本文链接：https://blog.csdn.net/qq_43708315/article/details/103951060

版权

NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

停用词：

顾名思义，没用的单词，也叫停止词；即，执行信息检索任务或其他自然语言任务时需要过滤掉的词（例如：‘to’,‘is’,‘the’）；这些词对句子整体的理解没多大作用，考虑到处理效率，则需要在处理数据前将这些词去掉（这也是数据标准化中的一步）。

处理停用词

即将待处理文本中的停用词去掉。
代码：

from nltk.corpus import stopwords
stops=set(stopwords.words('english'))
words=['you are a boy','to']
print([word for word in words
       if word not in stops])

解释代码:
stopwords()是一个语料库，里面是各种语言的停用词；
words()是实例stopwords()的一个函数，参数为fileid；提供实参为’english’则指的是在英语文件中存的所有停止词；没有参数则指所有语言的停用词。
set()函数是创建一个无序、不重复的元素集（性质和集合类似）；
1、
stopwords.words(‘english’)将英语停用词提供给set()函数
set()函数拿这些停用词创建集合，并返回一个集合给变量stops
2、[word for word in words if word not in stops])
是将在words中的元素和不在stops中的元素放在一个元组中。

初学者wwl

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
每日一滴（实践）——NLP之处理停用词

停用词：顾名思义，没用的单词，也叫停止词；即，执行信息检索任务或其他自然语言任务时需要过滤掉的词（例如：‘to’,‘is’,‘the’）；这些词对句子整体的理解没多大作用，考虑到处理效率，则需要在处理数据前将这些词去掉（这也是数据标准化中的一步）。处理停用词即将待处理文本中的停用词去掉。代码：from nltk.corpus import stopwordsstops=set(stop...
复制链接

扫一扫

专栏目录