TF-IDF

最新推荐文章于 2022-03-10 21:14:54 发布

Fang Suk

最新推荐文章于 2022-03-10 21:14:54 发布

阅读量433

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MrR1ght/article/details/100886511

版权

机器学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

TF-IDF是基于词频的文本特征表示方法。TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。这里先简单介绍下TF绝对词频。

一、TF绝对词频

绝对词频是相对于布尔词频来说的。布尔词频用0,1来表示某词是否出现。布尔词频无法区分不同特征项的重要程度，只能表示该词是否出现。相对词频使用词出现的频率来表示特征。这符合我们的直观感受。通常来说，总是出现的词比不怎么出现的词更重要。

但这也不是绝对的。例如一些停顿词，代词“的”“地”等等出现的频率也很高但事实上没什么作用。为此，提出了TF-IDF来表示特征。

二、TF-IDF

1、IDF

TF-IDF在TF值的基础上再乘以IDF权重来抑制停顿词的权重。IDF可以用来衡量某个词的“通用程度”。具体做法是如果某个词在所有的文档中都出现了，则认为这个词是比较通用的词。是由于语言描述的需要添加的助词，代词等等。相反，如果某个词在所有的文档中只出现了一次。则认为这个词不是语言描述需要的通用词。具体计算如下：

其中，N(x)表示包含词x的文档个数。N表示总的文档个数。举个极端的例子，我们有一个很大的文档库。包含文档的个数为N。这些文档中包含词x的个数也是N。也就是说每篇文档都包含了词x。那这个词就认定是由于汉语语言学的特点会经常用到词x，不包含什么有用的信息，IDF(X)=0。相反，如果只有1篇文档用了词x，则认为词x不是通用词IDF(x)=logN。为了出现避免分母N(X)=0的情况。通常做平滑处理。

2、TF-IDF

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
TF-IDF

TF-IDF是基于词频的文本特征表示方法。TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。这里先简单介绍下TF绝对词频。一、TF绝对词频绝对词频是相对于布尔词频来说的。布尔词频用0,1来表示某词是否出现。布尔词频无法区分不同特征项的重要程度，只能表示该词是否出现。相对词频使用词出现的频率来表示特征。这符合我们的...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。