TF-IDF

1.TF-IDF是什么?

TF-IDF :term frequency-inverse document frequency

1.tf-idf 作为一种权重经常被用作信息检索和文本挖掘领域

2.这样一种权重时通过统计计算得出的。来衡量 在一个语料库或者文本集中, 一个term 或者 word对于一个文档的重要性。(比如,有k个文档,其中一个文档d种有一个词w,衡量 w对于k中的d的重要性)

3.直观上看,tf-idf的大小与word在文档中出现频率成正比,与在语料中出现的频率成反比

4.可以用来表达一个文档,比如有k个文档,这个语料库共V个word,那么每一篇文档就由一个V维向量表达,每一维时对应word的tf-idf值。sklearn已有中有具体实现。

2.如何计算TF-IDF

  • TF: Term Frequency :衡量一个word在文档中出现的频率,除以 文档长度可以看成是一种normalization。

    TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document)

  • IDF: Inverse Document Frequency :衡量一个word对于一个文档的重要性。在计算TF的时候,所有的词是一样重要的,显然不够精确,比如‘is’‘a’之类的词T

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值