如何计算idf

我们这道一个单词的idf的计算公式可以如下:

上面这个公式需要先要有一个语料库,如果此时你恰好没有这样的一个语料库,那你要怎么去估计这个idf呢?

现在假定在一篇《中国的蜜蜂养殖》文章当中,假定该文长度为1000个词,“中国”,“蜜蜂”,“养殖”各出现了20次,则这三个词的词频(TF)都为0.02.

为了计算这些词的idf,有一个很方便的方法,我们可以将google收录的中文网页当成一个文档集(corpus),那么如何估算这个文档集合的大小呢? 我们知道在中文文档中,“的”几乎会出现在每一个文档中,所以我们可以通过google  “的” 所包含的网页数目近似认为是整个文档集的大小,发现总共有250亿张。

包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:



参考资料:

TF-IDF与余弦相似性的应用(一):自动提取关键词:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值