Elasticsearch相关性算法
Elasticsearch相关性算法主要分为三大部分:布尔模型,TF/IDF,向量空间模型
布尔模型:and,or,not根据这些条件来匹配文档,判断搜索词是否在文档中。
TF/IDF:相关性算法--TF/IDF 这篇文章里已经介绍了相关内容,计算词频的一种方法。
空间向量模型:每个词的在文档的集合中都有自己的权重,比如词A的权重为2,词B的权重为5,这样我们可以计作向量(2,5),他在坐标系上的图形就是远点到(2,5)点之间的连线。当我们搜索A,B的时候,有些文档中只存在A,有的文档只存在B,就可以近似的看作(2,0)和 (0,5),A和B都存在的就是(2,5)。同样通过原点和这些点的连线。比较这些线段和原点到(2,5)的线段的角度。角度越大,相关性越低,角度越低,则表示更接近模型线段,他的相关度就更高。