elasticsearch的TF/IDF打分公式
NLP中的TF/IDF
TF
TF(term frequency)这个数字是对词数(term count)的归一化,以防止它偏向长的文件。IDF
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
es是基于lucene的,所以它的评分机制也是基于lucene的,评分就是我们搜索的短语和doclist中的每篇文档的相关度进行打分。
lucene的评分公式TF/IDF
Lucene的评分叫做TF/IDF算法,基本意思就是词频算法。
TF:TF代表分词项在某个点文档中出现的次数(term frequency)
IDF:IDF代表代表分词项在多少个文档中出现(inverse document frequency)
这个评分公式有6个部分组成