如何构建停用词列表

最新推荐文章于 2024-08-21 03:42:35 发布

selfpoised

最新推荐文章于 2024-08-21 03:42:35 发布

阅读量6.7k

点赞数

分类专栏：程序技术文章标签：机器学习算法文档聚类停用词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/poised/article/details/50587908

版权

在机器学习文本分类中，预处理特别是停用词过滤至关重要。本文介绍了几种方法，如根据词频、文档频率筛选，剔除语法词汇，过滤数字和特殊字符，转为小写，以及利用公开的停用词表，来构建有效的停用词列表。

摘要由CSDN通过智能技术生成

在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中，会发现文档的预处理非常重要，如果包含太多杂词，则算法效果往往会大打折扣。预处理中，停用词过滤是非常关键的一步，但就目前而言，并没有完全自动一步到位的实现，而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循，加上人工干预，应该能达到不错的效果。

下面是一些可行的停用词过滤方法，供参考：

1.词频

将训练集中的高频和低频词汇找出，然后经过人工干预，提出认为可用的词，剩下即为停用词。

2. 文档频率DF

如果一个词在文档集中出现的频率太高，那么可以认为这种词不会具有太大的表征意义，可以过滤。而对于过于低频的，也可以酌情丢掉。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

selfpoised CSDN认证博客专家 CSDN认证企业博客

码龄17年

27: 原创

32万+: 周排名

206万+: 总排名

10万+: 访问

: 等级

1409: 积分

16: 粉丝

12: 获赞

29: 评论

30: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark LDA 主题抽取
To_be_brave1: 你好，请问还记得训练时间多久吗，我训练10万行数据，加了一些词过滤的预处理操作花了一个多小时还没训练完。。
Spark LDA 主题抽取
selfpoised 回复黄佳恒: 实际上，任何topic都包含所有词，每个topic都是一个词典向量。只是不同topic对于相同的词权重不同而已。所以，你只能说一篇文章属于哪个topic，而不能说哪个词属于什么topic。所谓词典向量，是指你处理文档集合前，将所有文档分词，设定一个词典，比如说多少万，只保留你认为有意义的词。那么任何文档自身的词典向量，具体就体现在不同词的词频而已
Spark LDA 主题抽取
黄佳恒: 你好，请问spark lda怎样输出每篇文档中每个词所对应的主题啊？
Spark LDA 主题抽取
selfpoised 回复 julysandz: 1.主题-词的分布是对整个语料来说的,是对整个语料的分析结果.而如果要预测具体文档主题的话,可以有多种方式,简单的方式可以把文档分词,然后与各个主题的词分布做余弦近似,取结果最大的几个作为该文档主题.复杂但规范点的是,,spark lda本身提供预测api,你可以先把聚类模型存储起来,然后加载模型,在模型上调用预测api,即可得到它的主题分布. 2.ClosedChannelException这种一般情况下都是因为内存不够引起的,比如说长时间gc,导致系统暂停,则肯定会导致超时,最终出错.你可以小样本先保证程序正确,然后再增大语料的数量
Spark LDA 主题抽取
julysandz: 博主，您好，看了您的博文受益匪浅，有几个问题请教： 1.最后的结果是“主题-词语”的分布，那怎么才能获取“文档-主题”的分布呢 2.我在yarn上运行时，报错ERROR client.TransportClient: Failed to send RPC 5734493766804459864 to bigdata-slave1/10.103.xxx.xx:xxxx: java.nio.channels.ClosedChannelException 是否也是内存溢出的问题

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。