ElasticSearch | 综合排序 | Function Score Query | 优化算分

算分 & 排序

  • ElasticSearch 默认会以文档的相关度算分进行排序;
  • 可以通过指定一个或多个字段进行排序;
  • 使用相关度算分(_score)排序,不能满足某些特定条件;
  • 某些场景下,无法结合相关度,对排序实现更多的控制;

Function Score Query

  • 可以在查询结束后,对每一个匹配的文档进行一系列的重新算分,根据新生成的分数排序;
Function Score Query | 计算分值的函数
  • Weight:为每一个文档设置一个简单而不被规范化的权重;
  • Field Value Factor:使用该数值来修改 _score,例如:将“热度”和“点赞数”作为算分的考虑因素;
  • Random Score:为每一个用户使用一个不同的,随机算分结果;
  • 衰减函数:以某个字段的值为准,距离某个值越近,得分越高;
  • Script Score:自定义脚本完全控制所需逻辑;

Function Score Query | 举几个栗子

数据准备
DELETE blogs
PUT /blogs/_doc/1
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   0
}

PUT /blogs/_doc/2
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   100
}

PUT /blogs/_doc/3
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   1000000
}
使用 function_score 搜索
  • 按理说,3 篇文档的数据完全相同,算分应该一样才对;
  • 由于 field_value_factor 指定了字段为 votes,所以,点赞数最多的博文排在了最前面;
  • 而且 3 篇文档的算分差异非常大,因为新的算分公式为:新算分 = 老算分 * votes
POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes"
      }
    }
  }
}
使用 Modifier 平滑曲线
  • 新算分 = 老算分* log(1 + 投票数)
POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p"
      }
    }
  }
}
引入 Factor
  • 新算分 = 老算分* log(1 + factor * 投票数)
POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p" ,
        "factor": 0.1
      }
    }
  }
}
Boost Mode vs Max Boost
  • Boost Mode
    • Multiply - 算分与函数值的乘积
    • Sum - 算分与函数的和
    • Min / Max - 算分与函数取最小 / 大值
    • Replace - 使用函数值取代算分
  • Max Boost - 可以将算分控制在一个最大值内
POST /blogs/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field": "votes",
        "modifier": "log1p" ,
        "factor": 0.1
      },
      "boost_mode": "sum",
      "max_boost": 3
    }
  }
}
引入一致性随机函数
  • 使用场景 - 网站的广告需要提高展现率;
  • 具体要求 - 让每个用户能看到不同的随机排名,但是也希望同一个用户访问时,结果的相对顺序保持一致(Consistently Random);
  • 只要 seed 值保持一致,每次的排序结果就是一致的;
POST /blogs/_search
{
  "query": {
    "function_score": {
      "random_score": {
        "seed": 911119
      }
    }
  }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值