每日一滴(实践)——NLP之处理停用词

停用词:

顾名思义,没用的单词,也叫停止词;即,执行信息检索任务或其他自然语言任务时需要过滤掉的词(例如:‘to’,‘is’,‘the’);这些词对句子整体的理解没多大作用,考虑到处理效率,则需要在处理数据前将这些词去掉(这也是数据标准化中的一步)。

处理停用词

即将待处理文本中的停用词去掉。
代码:

from nltk.corpus import stopwords
stops=set(stopwords.words('english'))
words=['you are a boy','to']
print([word for word in words
       if word not in stops])

解释代码:
stopwords()是一个语料库,里面是各种语言的停用词;
words()是实例stopwords()的一个函数,参数为fileid;提供实参为’english’则指的是 在英语文件中存的所有停止词;没有参数则指所有语言的停用词。
set()函数是创建一个无序、不重复的元素集(性质和集合类似);
1、
stopwords.words(‘english’)将英语停用词提供给set()函数
set()函数拿这些停用词创建集合,并返回一个集合给变量stops
2、[word for word in words if word not in stops])
是将在words中的元素和不在stops中的元素放在一个元组中。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Stopwords中文停用词是哈工大提供的一份中文常用词汇表,包含了一些语言中没有实际含义的词汇,如“的”、“了”、“着”等。这些词语在文本分析过程中往往会对分析结果产生较大的干扰,因此通常会被排除在外。 哈工大的中文停用词库包含了近800个中文常用词汇,采用了现代语料库的统计方法进行筛选。这个停用词库具有以下特点: 1.涵盖面广:据统计,哈工大停用词库可以覆盖95%以上的中文语料库,包含了文本中常用的停用词。 2.实时更新:哈工大停用词库还在持续更新中,新词汇会被不断地加入,旧词汇也会被不定期清理,以保证词库的质量。 3.开源免费:哈工大停用词库是一个开源的项目,任何人都可以免费获取和使用,方便了广大研究人员和开发者在中文文本分析中使用。 在文本处理的过程中,通过引入停用词库,可以在一定程度上优化分析结果,提高处理效率。哈工大提供的中文停用词库得到了广泛的应用和认可,帮助人们更好地进行中文文本分析。 ### 回答2: 停用词是指在文本中没有实际意义的词语,如代词、介词、连词等,这些词语不仅不会影响文本的意义,还会增加处理文本的难度和时间,因此需要将它们从文本中剔除,减少文本的处理复杂性。 哈工大停用词表是一个中文停用词表,其中包含了一些常见的中文停用词,如“的”、“了”、“和”等,这些词语在中文文本中频繁出现,但并不具备实际意义,因此需要从文本中剔除。 使用哈工大停用词表可以有效地提高文本处理的速度和效率,同时还可以提高文本处理结果的质量和准确性。在进行文本分析、文本挖掘、自然语言处理等领域的研究和应用时,哈工大停用词表也是一个非常重要的工具。 ### 回答3: stopwords 是指在自然语言处理中被忽略的常见词汇,例如“的”、“是”、“了”等。这些词虽然在文本中出现频繁,但对于文本的意义并没有重要贡献,而且会占用处理资源,影响算法的性能。哈工大是国内著名的大学,其开发的停用词表在中文自然语言处理领域得到了广泛应用。 中文停用词表通常由人工整理而成,包含了常见的无意义、重复、停用的词汇,用于在处理中文文本时过滤掉这些字词,提高算法的效率。在分词、文本分类、信息检索等任务中使用停用词表能够减小处理数据的压力,并且提升算法的性能指标。在构建自然语言处理系统时,选择合适的停用词表是非常重要的一步,可以提高系统的效率、精确性和可靠性。 哈工大开发的中文停用词表包含了一些常见的中文停用词,例如“的”、“在”、“与”等,同时也支持用户自定义停用词,可以根据任务需求对停用词表进行扩充和修改。除了哈工大,国内外也有很多其他大学和企业提供了自己的停用词表,例如清华大学、北大、搜狗等。停用词表的使用需要根据具体的应用场景和领域进行选择和定制,以期达到更好的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值