停用词的构建

最新推荐文章于 2020-11-20 22:43:23 发布

lrrlrrlrrlrrln

最新推荐文章于 2020-11-20 22:43:23 发布

阅读量828

点赞数

在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中，会发现文档的预处理非常重要，如果包含太多杂词，则算法效果往往会大打折扣。预处理中，停用词过滤是非常关键的一步，但就目前而言，并没有完全自动一步到位的实现，而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循，加上人工干预，应该能达到不错的效果。

下面是一些可行的停用词过滤方法，供参考：

1.词频

将训练集中的高频和低频词汇找出，然后经过人工干预，提出认为可用的词，剩下即为停用词。

2. 文档频率DF

如果一个词在文档集中出现的频率太高，那么可以认为这种词不会具有太大的表征意义，可以过滤。而对于过于低频的，也可以酌情丢掉。

3. 语法剔除，比如：

  Running
  Runner
  Runs
  Ran

可以归类为run这个词

4. 过滤包含数字，以及特殊字符的词，比如：

hello'
*he

computer2

5. 将所有英文词汇转为lowercase

6. 搜集网络上一些公开的停用词表

http://www.webconfs.com/stop-words.php
http://snowball.tartarus.org/algorithms/english/stop.txt

IKAnalyzer使用停用词词典进行分词

http://blog.csdn.net/shijiebei2009/article/details/39697043#

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

lrrlrrlrrlrrln CSDN认证博客专家 CSDN认证企业博客

码龄9年

4: 原创

70万+: 周排名

153万+: 总排名

1998: 访问

: 等级

75: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

停用词的构建
为毕业苦恼的研究生: 作者您好，我问一下哪些词主题停用词。对一个句子分词，要去除一下杂词，在去完词之后句子原本的意思会改变吗，通过看这一行和初始的句子相比

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。