ElaticSearch进阶(8)_dis_max实现best fields策略进行多字段搜索

最新推荐文章于 2023-06-13 10:41:09 发布

sp_wxf

最新推荐文章于 2023-06-13 10:41:09 发布

阅读量130

点赞数

本文链接：https://blog.csdn.net/qq_24099547/article/details/102317001

版权

概述:best fields策略概念

基于多个 field 查询如 title(标题) content 内容.
搜索title或content中包含java或solution的帖子
期望：如果title中包含了java和solution 。或者 content 中保护 java和solution 这样的doc 优先排在前面。
best fields策略，就是说，搜索到的结果，应该是某一个field中匹配到了尽可能多的关键词，被排在前面；而不是尽可能多的field匹配到了少数的关键词，排在了前面。

例子

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"title" : "this is java and elasticsearch blog"} }
{ "update": { "_id": "2"} }
{ "doc" : {"title" : "this is java blog"} }
{ "update": { "_id": "3"} }
{ "doc" : {"title" : "this is elasticsearch blog"} }
{ "update": { "_id": "4"} }
{ "doc" : {"title" : "this is java, elasticsearch, hadoop blog"} }
{ "update": { "_id": "5"} }
{ "doc" : {"title" : "this is spark blog"} }

{ "update": { "_id": "1"} }
{ "doc" : {"content" : "i like to write best elasticsearch article"} }
{ "update": { "_id": "2"} }
{ "doc" : {"content" : "i think java is the best programming language"} }
{ "update": { "_id": "3"} }
{ "doc" : {"content" : "i am only an elasticsearch beginner"} }
{ "update": { "_id": "4"} }
{ "doc" : {"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
{ "update": { "_id": "5"} }
{ "doc" : {"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }

1.搜索title或content中包含java或solution的帖子

GET /forum/article/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

结果分析

期望的是doc5，结果是doc2, doc4排在了前面 (doc 5 中 content字段中保护了 java 和 solution)
计算每个document的relevance score：每个query的分数，乘以matched query数量，除以总query数量

算一下doc4的分数
{ “match”: { “title”: “java solution” }}，针对doc4，是有一个分数的
{ “match”: { “content”: “java solution” }}，针对doc4，也是有一个分数的

所以是两个分数加起来，比如说，1.1 + 1.2 = 2.3
matched query数量 = 2
总query数量 = 2

2.3 * 2 / 2 = 2.3

算一下doc5的分数
{ “match”: { “title”: “java solution” }}，针对doc5，是没有分数的
{ “match”: { “content”: “java solution” }}，针对doc5，是有一个分数的

所以说，只有一个query是有分数的，比如2.3
matched query数量 = 1
总query数量 = 2

2.3 * 1 / 2 = 1.15

doc5的分数 = 1.15 < doc4的分数 = 2.3

best fields策略，dis_max

best fields策略，就是说，搜索到的结果，应该是某一个field中匹配到了尽可能多的关键词，被排在前面；而不是尽可能多的field匹配到了少数的关键词，排在了前面
dis_max语法，直接取多个query中，分数最高的那一个query的分数即可

{ “match”: { “title”: “java solution” }}，针对doc4，是有一个分数的，1.1
{ “match”: { “content”: “java solution” }}，针对doc4，也是有一个分数的，1.2
取最大分数，1.2

{ “match”: { “title”: “java solution” }}，针对doc5，是没有分数的
{ “match”: { “content”: “java solution” }}，针对doc5，是有一个分数的，2.3
取最大分数，2.3

然后doc4的分数 = 1.2 < doc5的分数 = 2.3，所以doc5就可以排在更前面的地方，符合我们的需要

GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

sp_wxf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElaticSearch进阶(8)_dis_max实现best fields策略进行多字段搜索

概述:best fields策略概念基于多个 field 查询如 title(标题) content 内容.搜索title或content中包含java或solution的帖子期望：如果title中包含了java和solution 。或者 content 中保护 java和solution 这样的doc 优先排在前面。best fields策略，就是说，搜索到的结果，应该是某一个fie...
复制链接

扫一扫