关于TF-IDF的信息论分析

最新推荐文章于 2021-08-22 14:53:54 发布

weixin_34125592

最新推荐文章于 2021-08-22 14:53:54 发布

阅读量247

点赞数

原文链接：http://blog.51cto.com/drmaxwell/1347898

版权

最近发现利用搜索引擎的思想可以用来解决自己的研究课题，看了几篇从概率论的角度分析TF-IDF的文章，讲的都不是很清楚。随即翻阅了一下流传已久的吴军的《数学之美》，发现里面对TF-IDF的讲解非常精辟，从信息论的角度来分析TF-IDF果然是通俗易懂。关于TF-IDF就不做太多介绍了，其中TF的解释也是非常清晰。这里主要对IDF从信息论的角度进行个简单的分析。

数学之美中提到IDF的概念就是一个特定条件下关键词的概率分布的交叉熵（KL Divergence），乍一看可以理解，但工科人喜欢自己推到得到结论。在网上看了Jie Bao的TF-IDF之极简化信息论分析，感觉其对IDF的理解存在问题，具体表现在KL Divergence中两个分布是定义在相同的概率空间下，而Jie Bao的KL Divergence定义在两个概率空间下（单词和文档），这从原理上应该就是有问题的。实际上，在我看来，IDF的信息论理解应该如下：

IDF是两个分布p和q的KL Divergence，其中p是文档的分布概率，q是在t_i出现时文档的概率分布，即条件概率。在大小为N的文档集合中，由于文档无重复，任意文档的概率为 $N$ ， $|d:t_i\in&space;d|$