TF-IDF算法

一、TF(Term Frequency)词频

         用词频去衡量关键字,会出现一个问题,就是文本中的 “的” 或是 “是”出现的频率会很高,还有就是一些常见的名词的频率也会很高,到是这些并不是我们需要的关键字的,不能代表文本。因此,就需要为词分配一个权重,最常见的给予的权重较小,较少见的给予的权重大。

二、逆文档频率(Inverse Document Frequency)IDF

    权重就是逆文档频率:
     TF-IDF = TF * IDF
 某个词对文档的总要性越高,它的TF-IDF值越大。

三、公式

  词频: 词频(TF)=某个词在文档中出现的次数

由于文档有长短之分,为了方便比较,进行词频的标准化

  词频(TF)= 某个词在文档中出现的次数 / 文档中词的总数

或者 词频(TF)= 某个词在文档中出现的次数 / 该文档中出现次数最多词的出现次数

 逆文档频率(IDF)的计算,需要一个语料库。
 逆文档频率(IDF)=log(语料库的文档总数 / (包含该词的文档数 +1))

TF-IDF = 词频(TF)* 逆文档频率(IDF)

四、总结

  TF-IDF 值与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。主要应用于构建文本的向量空间模型,和文本的关键字提取中。



     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值