算分 & 排序
- ElasticSearch 默认会以文档的相关度算分进行排序;
- 可以通过指定一个或多个字段进行排序;
- 使用相关度算分(_score)排序,不能满足某些特定条件;
- 某些场景下,无法结合相关度,对排序实现更多的控制;
Function Score Query
- 可以在查询结束后,对每一个匹配的文档进行一系列的重新算分,根据新生成的分数排序;
Function Score Query | 计算分值的函数
- Weight:为每一个文档设置一个简单而不被规范化的权重;
- Field Value Factor:使用该数值来修改 _score,例如:将“热度”和“点赞数”作为算分的考虑因素;
- Random Score:为每一个用户使用一个不同的,随机算分结果;
- 衰减函数:以某个字段的值为准,距离某个值越近,得分越高;
- Script Score:自定义脚本完全控制所需逻辑;
Function Score Query | 举几个栗子
数据准备
DELETE blogs
PUT /blogs/_doc/1
{
"title": "About popularity",
"content": "In this post we will talk about...",
"votes": 0
}
PUT /blogs/_doc/2
{
"title": "About popularity",
"content": "In this post we will talk about...",
"votes": 100
}
PUT /blogs/_doc/3
{
"title": "About popularity",
"content": "In this post we will talk about...",
"votes": 1000000
}
使用 function_score 搜索
- 按理说,3 篇文档的数据完全相同,算分应该一样才对;
- 由于
field_value_factor
指定了字段为 votes
,所以,点赞数最多的博文排在了最前面; - 而且 3 篇文档的算分差异非常大,因为新的算分公式为:
新算分 = 老算分 * votes
POST /blogs/_search
{
"query": {
"function_score": {
"query": {
"multi_match": {
"query": "popularity",
"fields": [ "title", "content" ]
}
},
"field_value_factor": {
"field": "votes"
}
}
}
}
使用 Modifier 平滑曲线
POST /blogs/_search
{
"query": {
"function_score": {
"query": {
"multi_match": {
"query": "popularity",
"fields": [ "title", "content" ]
}
},
"field_value_factor": {
"field": "votes",
"modifier": "log1p"
}
}
}
}
引入 Factor
新算分 = 老算分* log(1 + factor * 投票数)
POST /blogs/_search
{
"query": {
"function_score": {
"query": {
"multi_match": {
"query": "popularity",
"fields": [ "title", "content" ]
}
},
"field_value_factor": {
"field": "votes",
"modifier": "log1p" ,
"factor": 0.1
}
}
}
}
Boost Mode vs Max Boost
- Boost Mode
- Multiply - 算分与函数值的乘积
- Sum - 算分与函数的和
- Min / Max - 算分与函数取最小 / 大值
- Replace - 使用函数值取代算分
- Max Boost - 可以将算分控制在一个最大值内
POST /blogs/_search
{
"query": {
"function_score": {
"query": {
"multi_match": {
"query": "popularity",
"fields": [ "title", "content" ]
}
},
"field_value_factor": {
"field": "votes",
"modifier": "log1p" ,
"factor": 0.1
},
"boost_mode": "sum",
"max_boost": 3
}
}
}
引入一致性随机函数
- 使用场景 - 网站的广告需要提高展现率;
- 具体要求 - 让每个用户能看到不同的随机排名,但是也希望同一个用户访问时,结果的相对顺序保持一致(Consistently Random);
- 只要
seed
值保持一致,每次的排序结果就是一致的;
POST /blogs/_search
{
"query": {
"function_score": {
"random_score": {
"seed": 911119
}
}
}
}