单字符串多字段的查询和DisMaXQuery
单字符串的多字段搜索
在本例中,文档2出现了 brown fox ,而文档1 只出现了brown,所有理论上文档2的相关度应该更高。然而结果正好相反
{
"took" : 4,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 2,
"relation" : "eq"
},
"max_score" : 0.90425634,
"hits" : [
{
"_index" : "blogs",
"_type" : "_doc",
"_id" : "1",
"_score" : 0.90425634,
"_source" : {
"title" : "Quick brown rabbits",
"body" : "Brown rabbits are commonly seen."
}
},
{
"_index" : "blogs",
"_type" : "_doc",
"_id" : "2",
"_score" : 0.77041256,
"_source" : {
"title" : "Keeping pets healthy",
"body" : "My quick brown fox eats rabbits on a regular basis."
}
}
]
}
}
这与Bool查询的算分过程有关
所以,在2个字段都都含有 brown 的文档一比在一个字段中含有 brown fox的文档二的得分高,这显然是不合理的。
解决:Disjunction Max Query 最佳匹配
使用dis_max查询,会将匹配的分数最高的得分作为最终得分
POST blogs/_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
]
}
}
}
最佳字段调优
有时,我们也需要其他字段来影响最终的得分,使用 tie_breaker
参数来做到这一点
POST blogs/_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
],
"tie_breaker": 0.2
}
}
}
文档1 文档 2 虽然最佳匹配字段都说title且得分相同,但是文档1拥有更高的得分,因为文档1的body字段含有 quick而文档2不包含,这个字段上的得分会乘以 tie_breaker并累计到最终得分上去。
相关阅读
https://www.elastic.co/guide/en/elasticsearch/reference/7.1/query-dsl-dis-max-query.html