TF-IDF 特征权重计算
Tf就是词频因子,也就是一个单词在文档中出现的次数。具体计算方法,最直接的就是利用词频数,也可以采用词频数取log值,还有增强型规范化tf,对长文档的一种抑制。用单词实际词频除以文档中最高的词频。
IDF逆文档频率因子log (N/nk)
N代表文档集合中总共有多少个文档,nk代表特征单词k在其中多少个文档中出现过。
代表的是文档集合范围的一种全局因子。
越多的文档包含某个单词,其IDF权值越小。
BM25模型
TF-IDF 特征权重计算
Tf就是词频因子,也就是一个单词在文档中出现的次数。具体计算方法,最直接的就是利用词频数,也可以采用词频数取log值,还有增强型规范化tf,对长文档的一种抑制。用单词实际词频除以文档中最高的词频。
IDF逆文档频率因子log (N/nk)
N代表文档集合中总共有多少个文档,nk代表特征单词k在其中多少个文档中出现过。
代表的是文档集合范围的一种全局因子。
越多的文档包含某个单词,其IDF权值越小。
BM25模型