TF(term frequency) 即词频,指的是一个词在一个文档中出现的频次。显而易见,出现的越多,这个词的权重越高,它越重要。
如:刘备,关羽,张飞在文档桃园三结义中出现的频次很多,就凸显这三词在该文档的重要性。
IDF(inverse document frequency)即逆向文档频率,指的是一个词在所有文档里出现的频次。频次越高,权重越低,这个词体现不出文档之间的区分度,对文档的相关度贡献就低。
如:the,and,的,你,我,他这类词在所有文档中都存在,它对文档的区分度贡献就低。