机器学习笔记笔记之三——文本类型处理-词袋法、TF-IDF理解

最新推荐文章于 2024-10-01 18:46:58 发布

JAVA技术分享官-乐乐

最新推荐文章于 2024-10-01 18:46:58 发布

阅读量4.9k

点赞数 3

分类专栏：机器学习文章标签：词袋法 TF-IDF TF IDF 文本特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35946969/article/details/84562104

版权

机器学习专栏收录该内容

26 篇文章 5 订阅

订阅专栏

在面对文本型特征时，大致可以分为两种。

一是枚举类型，比如：男女，小学生初中生高中生大学生……这种类型下类别一般不会超过百种，那么就可以使用哑编码（one-hot）来处理。

另一种就是真正意义上的文本，一条评论或是一篇文章。对于这样的数据，我们介绍两种方法：

（1）、词袋法。

什么是词袋法？将文本当作一个无序的集合，可以采用文本中的词条T进行体现，那么文本中出现的所有词条以及其出现的次数就可以体现文档的特征。

即，将文章分成一个个词语，然后统计各个词语的次数。

但是这样做法一般情况下都会造成分出词语过多，尤其无用词语过多，例如“是”，“的”，“啊”等无意义的词语。为了处理一些词袋法处理的不太好的问题，我们使用TF-IDF法。

（2）、TF-IDT。

TF-IDF如何处理上述问题。

首先，我们有语料库的概念：以｛文章1：词条1 : 2个，文章1：词条2 : 3个｝类似的形式去存储已有文章和词条。

然后，我们用语料库来解决无用词语的问题：

词条的重要性随着 在语料库中出现频率的增加 而减少。

比如有个关于动物的各种文章语料库，“动物”这个词在所有文章中出现的频率极高，那么“动物”这个词对于我们区分语料库中的文章有帮助吗？

并没有，也就是说 词条在语料库中出现的越少，作用才会越大。那么我们就去计算词条在语料库中出现的频率就可以了。

IDF 就是在计算词条在语料库中出现的频率，具体计算规则如下。

IDF（逆向文件频率）：文件频率 = 包含该词的文件数 / 所有文件数。逆向文件频率 = 所有文件数 / 包含该词的文件数。（IDF只是对文件频率取了倒数，原因很简单，按照上面讲的逻辑，文件频率与该词作用成反比，我们想要一个变量和该词作用成正比，那就取倒数喽！）

值得一提，有时候为了后面的计算和衡量，还会对IDF取个对数。

那么TF又是什么？这个更简单了，就是词袋法的核心：该词条在文本中出现的次数。

所谓的TF-IDF = TF *IDF 。这样既保证了该词条在文章中出现次数与该词作用成正比，又保证了无用词语不会产生太大影响。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。