自然语言处理--停用词在词条列表中迭代剔除

最新推荐文章于 2023-06-05 08:00:00 发布

糯米君_

最新推荐文章于 2023-06-05 08:00:00 发布

阅读量760

点赞数

分类专栏：自然语言处理文章标签： nlp 自然语言处理算法 python

本文链接：https://blog.csdn.net/fgg1234567890/article/details/111464080

版权

自然语言处理专栏收录该内容

59 篇文章 8 订阅

订阅专栏

在任何一种语言中，停用词（stop word）指的是那些出现频率非常高的常见词，但是对短语的含义而言，这些词承载的实质性信息内容却少得多。一些常见的停用词的例子如下：
1.a, an
2.the, this
3.and, or
4.of, on
从传统上说，NLP 流水线都会剔除停用词，以便减小从文本中提取信息时的计算压力。

stop_words = ['a', 'an', 'the', 'on', 'of', 'off', 'this', 'is']
tokens = ['the', 'house', 'is', 'on', 'fire']
tokens_without_stopwords = [x for x in tokens if x not in stop_words]
print(tokens_without_stopwords)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

糯米君_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理--停用词在词条列表中迭代剔除

在任何一种语言中，停用词（stop word）指的是那些出现频率非常高的常见词，但是对短语的含义而言，这些词承载的实质性信息内容却少得多。一些常见的停用词的例子如下：1.a, an2.the, this3.and, or4.of, on从传统上说，NLP 流水线都会剔除停用词，以便减小从文本中提取信息时的计算压力。stop_words = ['a', 'an', 'the', 'on', 'of', 'off', 'this', 'is']tokens = ['the', 'house', '
复制链接

扫一扫