【NLP】为什么要有 tf-idf,从 bag-of-words 说起

词袋模型最常用的是可以将其得到的文档词频(term frequency)作为一个 feature。比如上文中的文档1和文档2,其 term frequency feature 可以用列表表示为

(1) [1, 2, 1, 1, 2, 1, 1, 0, 0, 0]
(2) [0, 1, 1, 1, 0, 1, 0, 1, 1, 1]
其中,
的第一个元素值 1 表示 John 在文档 1 中出现了一次,第二个元素值 2 表示 likes 出现了两次。

词袋模型并没有保留原文档的语法结构。同时, term frequency 也**不是文档的最佳向量表示。**常用词如 **‘the’,‘a’,‘to’ 无疑是最高频的词,但是这些高频词在文档中并不是最重要的信息。**解决这个问题的一种方法是 tf-idf

引用:TF-IDF 原理与实现

TF-IDF

Tf-idf 是用来给词语进行加权的,对于给定的一堆语料库,给一个文档,和一个文档里的词,可以得到这个词在这一堆文档里面的权重。

tf:term frequency 
词频,越经常出现的词越重要

idf:inversed document frequency 
逆文档频率,越在各个文档里面出现得多的词越不重要

Tf-idf = tf * log(N/n)
N 就是所有文档的个数
n是出现这一个词的文档数
  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值