ElasticSearch | 综合排序 | Function Score Query | 优化算分

最新推荐文章于 2024-01-03 10:38:14 发布

乌鲁木齐001号程序员

最新推荐文章于 2024-01-03 10:38:14 发布

阅读量613

点赞数

本文链接：https://blog.csdn.net/weixin_33669968/article/details/106352679

版权

算分 & 排序

ElasticSearch 默认会以文档的相关度算分进行排序；
可以通过指定一个或多个字段进行排序；
使用相关度算分（_score）排序，不能满足某些特定条件；
某些场景下，无法结合相关度，对排序实现更多的控制；

Function Score Query

可以在查询结束后，对每一个匹配的文档进行一系列的重新算分，根据新生成的分数排序；

Function Score Query | 计算分值的函数

Weight：为每一个文档设置一个简单而不被规范化的权重；
Field Value Factor：使用该数值来修改 _score，例如：将“热度”和“点赞数”作为算分的考虑因素；
Random Score：为每一个用户使用一个不同的，随机算分结果；
衰减函数：以某个字段的值为准，距离某个值越近，得分越高；
Script Score：自定义脚本完全控制所需逻辑；

Function Score Query | 举几个栗子

数据准备

DELETE blogs
PUT /blogs/_doc/1
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   0
}

PUT /blogs/_doc/2
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   100
}

PUT /blogs/_doc/3
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   1000000
}

使用 function_score 搜索

按理说，3 篇文档的数据完全相同，算分应该一样才对；
由于 field_value_factor 指定了字段为 votes，所以，点赞数最多的博文排在了最前面；
而且 3 篇文档的算分差异非常大，因为新的算分公式为：新算分 = 老算分 * votes

POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes"
      }
    }
  }
}

使用 Modifier 平滑曲线

新算分 = 老算分* log(1 + 投票数)

POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p"
      }
    }
  }
}

引入 Factor

新算分 = 老算分* log(1 + factor * 投票数)

POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p" ,
        "factor": 0.1
      }
    }
  }
}

Boost Mode vs Max Boost

Boost Mode
- Multiply - 算分与函数值的乘积
- Sum - 算分与函数的和
- Min / Max - 算分与函数取最小 / 大值
- Replace - 使用函数值取代算分
Max Boost - 可以将算分控制在一个最大值内

POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p" ,
        "factor": 0.1
      },
      "boost_mode": "sum",
      "max_boost": 3
    }
  }
}

引入一致性随机函数

使用场景 - 网站的广告需要提高展现率；
具体要求 - 让每个用户能看到不同的随机排名，但是也希望同一个用户访问时，结果的相对顺序保持一致（Consistently Random）；
只要 seed 值保持一致，每次的排序结果就是一致的；

POST /blogs/_search
{
  "query": {
    "function_score": {
      "random_score": {
        "seed": 911119
      }
    }
  }
}

乌鲁木齐001号程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch | 综合排序 | Function Score Query | 优化算分

算分 & 排序ElasticSearch 默认会以文档的相关度算分进行排序；可以通过指定一个或多个字段进行排序；使用相关度算分（_score）排序，不能满足某些特定条件；某些场景下，无法结合相关度，对排序实现更多的控制；Function Score Query可以在查询结束后，对每一个匹配的文档进行一系列的重新算分，根据新生成的分数排序；Function Score ...
复制链接

扫一扫