TF-IDF

TF-IDF是基于词频的文本特征表示方法。TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。这里先简单介绍下TF绝对词频。

一、TF绝对词频

绝对词频是相对于布尔词频来说的。布尔词频用0,1来表示某词是否出现。布尔词频无法区分不同特征项的重要程度,只能表示该词是否出现。相对词频使用词出现的频率来表示特征。这符合我们的直观感受。通常来说,总是出现的词比不怎么出现的词更重要。

但这也不是绝对的。例如一些停顿词,代词“的”“地”等等出现的频率也很高但事实上没什么作用。为此,提出了TF-IDF来表示特征。

二、TF-IDF

1、IDF

TF-IDF在TF值的基础上再乘以IDF权重来抑制停顿词的权重。IDF可以用来衡量某个词的“通用程度”。具体做法是如果某个词在所有的文档中都出现了,则认为这个词是比较通用的词。是由于语言描述的需要添加的助词,代词等等。相反,如果某个词在所有的文档中只出现了一次。则认为这个词不是语言描述需要的通用词。具体计算如下:

其中,N(x)表示包含词x的文档个数。N表示总的文档个数。举个极端的例子,我们有一个很大的文档库。包含文档的个数为N。这些文档中包含词x的个数也是N。也就是说每篇文档都包含了词x。那这个词就认定是由于汉语语言学的特点会经常用到词x,不包含什么有用的信息,IDF(X)=0。相反,如果只有1篇文档用了词x,则认为词x不是通用词IDF(x)=logN。为了出现避免分母N(X)=0的情况。通常做平滑处理。

2、TF-IDF

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值