最近发现利用搜索引擎的思想可以用来解决自己的研究课题,看了几篇从概率论的角度分析TF-IDF的文章,讲的都不是很清楚。随即翻阅了一下流传已久的吴军的《数学之美》,发现里面对TF-IDF的讲解非常精辟,从信息论的角度来分析TF-IDF果然是通俗易懂。关于TF-IDF就不做太多介绍了,其中TF的解释也是非常清晰。这里主要对IDF从信息论的角度进行个简单的分析。


数学之美中提到IDF的概念就是一个特定条件下关键词的概率分布的交叉熵(KL Divergence),乍一看可以理解,但工科人喜欢自己推到得到结论。在网上看了Jie Bao的TF-IDF之极简化信息论分析,感觉其对IDF的理解存在问题,具体表现在KL Divergence中两个分布是定义在相同的概率空间下,而Jie Bao的KL Divergence定义在两个概率空间下(单词和文档),这从原理上应该就是有问题的。实际上,在我看来,IDF的信息论理解应该如下:    


IDF是两个分布p和q的KL Divergence,其中p是文档的分布概率,q是在t_i出现时文档的概率分布,即条件概率。在大小为N的文档集合中,由于文档无重复,任意文档的概率为N|d:t_i\in&space;d|

因此,

gif.latex?D(p||q)=\sum_{d\in\mathcal{D}}