TF-IDF
一篇文档中出现的每个词都有其重要性,当我们快速阅读一篇文章的时候,重要的词可以让我们马上理解这篇文章大致和什么相关,举个最经典的例子,如果扫描文章多次遇见“蜜蜂”或者“养殖”,那这两个词对于这篇文章的理解就不可忽视,而不重要的词例如“的”或者“了”,对我们理解文章内容就几乎没有帮助,那么如何衡量每一个词的重要性呢?
首先直接上公式如下
tf i d f ( t , d , D ) = t f ( t , d ) × idf ( t , D ) \text { tf } i d f(t, d, D)=t f(t, d) \times \text { idf }(t, D) tf idf(t,d,