如何构建停用词列表

在机器学习文本分类中,预处理特别是停用词过滤至关重要。本文介绍了几种方法,如根据词频、文档频率筛选,剔除语法词汇,过滤数字和特殊字符,转为小写,以及利用公开的停用词表,来构建有效的停用词列表。
摘要由CSDN通过智能技术生成

       在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中,会发现文档的预处理非常重要,如果包含太多杂词,则算法效果往往会大打折扣。预处理中,停用词过滤是非常关键的一步,但就目前而言,并没有完全自动一步到位的实现,而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循,加上人工干预,应该能达到不错的效果。


      下面是一些可行的停用词过滤方法,供参考:

       1.词频

       将训练集中的高频和低频词汇找出,然后经过人工干预,提出认为可用的词,剩下即为停用词。


       2. 文档频率DF

       如果一个词在文档集中出现的频率太高,那么可以认为这种词不会具有太大的表征意义,可以过滤。而对于过于低频的,也可以酌情丢掉。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值