solr 相关度评分，自定义评分

最新推荐文章于 2021-03-14 20:53:43 发布

weixin_33862514

最新推荐文章于 2021-03-14 20:53:43 发布

阅读量128

点赞数

文章标签： c/c++ 数据库

原文链接：https://juejin.im/post/5a3ce9e7f265da43294e3e91

版权

ps：临时写的，大体的实现和简单版，以后会不断完善博客和代码

github：https://github.com/Eric-ly/solr_engine

solr是基于lucene的全文检索搜索引擎，和一般查数据库相比，solr的一个特色就是它的相关度评分。这里介绍一下它的自定义相关度评分。

solr的评分是需要考虑很多因素的有一个公式，比如会考虑一句话中关键字出现的频率，一片文章中关键字出现的频率和这篇文章的长度来综合计算相关度评分。

在实际的业务中，可能不需要这么复杂的相关度，是需要简单粗暴的按照我指定的规则计算相关度，并按照相关度进行排序。使用默认的话因为因素过多 (比如分数小数太多) 可能不能让评分按照我自己的方式计算（最后分数）即最后的分数会有差别。

需求问题，比如：

我只想要滑雪加10分然后我根据标题包含滑雪的排序

1.标题含滑雪 > 标题不含滑雪

2.正文含滑雪 >正文不含滑雪

3.文章的质量分高大于低

这个时候如果用默认的我无法在滑雪中根据正文包含或者质量分进行二层，三层排序，因为条件1 （标题中包含滑雪关键字的）的评分就不一样导致排序结果从一开始就是错误的

所以我需要一个按照我自己定义的规则计算的相关度评分。

这里我大概介绍一下如何自定义自己的相关度评分

solr使用的默认相关度是 DefaultSimilarity 类，

1.这里我们重写DefaultSimilarityFactory ，获取自定义的similarity

public class BootSimilarityFactory extends SimilarityFactory {
    @Override
    public Similarity getSimilarity(){
        return new  BootSimilarity();
    }
}
复制代码

2.BootSimilarity 中simScorer方法只是用很少的因素

    @Override
    public SimScorer simScorer(SimWeight weight, LeafReaderContext context) throws IOException {
        BoostSimWeight boostSimWeight = (BoostSimWeight)weight;
        return new BoostSimScorer(boostSimWeight);
    }
复制代码

BootSimScorer 方法，这里我们可以看到explain 方法我只是使用了boostSimWeight.boost 分数，而对比默认方法我们就会发现

    public class BoostSimScorer extends SimScorer{

略
        @Override
        public Explanation explain(int doc, Explanation freq) {
            return Explanation.match(
                    boostSimWeight.boost,
                    "(boost is:" + boostSimWeight.boost + " )",
                    Collections.singleton(freq));
        }

略
    }
复制代码

如下是默认的评分：

DefaultSimilarity 继承TFIDFSimilarity 类，具体方法由TFIDFSimilarity实现。

TFIDFSimilarity 类：
    public final SimWeight computeWeight(float queryBoost, CollectionStatistics collectionStats, TermStatistics... termStats) {
        Explanation idf = termStats.length == 1 ? this.idfExplain(collectionStats, termStats[0]) : this.idfExplain(collectionStats, termStats);
        return new TFIDFSimilarity.IDFStats(collectionStats.field(), idf, queryBoost);
    }
复制代码

其中的内部类simScore的explain方法

private final class TFIDFSimScorer extends SimScorer {
略
 public Explanation explain(int doc, Explanation freq) {
      return TFIDFSimilarity.this.explainScore(doc, freq, this.stats, this.norms);
 }
复制代码