ES8-排序

最新推荐文章于 2023-05-15 12:53:59 发布

CLA1989

最新推荐文章于 2023-05-15 12:53:59 发布

阅读量523

点赞数

分类专栏： ES 文章标签： elasticsearch big data

本文链接：https://blog.csdn.net/CLA1989/article/details/120308689

版权

ES 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1.为了按照相关性来排序，需要将相关性表示为一个数值。在 Elasticsearch 中，相关性得分由一个浮点数进行表示，并在搜索结果中通过 _score 参数返回，默认排序是 _score 降序。
有时，相关性评分对你来说并没有意义。例如，下面的查询返回所有 user_id 字段包含 1 的结果。
GET /_search
{
"query" : {
"bool" : {
"filter" : {
"term" : {
"user_id" : 1
}
}
}
}
}
这里没有一个有意义的分数：因为我们使用的是 filter （过滤），这表明我们只希望获取匹配 user_id: 1 的文档，并没有试图确定这些文档的相关性。实际上文档将按照随机顺序返回，并且每个文档都会评为零分。

如果评分为零对你造成了困扰，你可以使用 constant_score 查询进行替代：
GET /_search
{
"query" : {
"constant_score" : {
"filter" : {
"term" : {
"user_id" : 1
}
}
}
}
}

这将让所有文档应用一个恒定分数（默认为 1 ）。它将执行与前述查询相同的查询，并且所有的文档将像之前一样随机返回，这些文档只是有了一个分数而不是零分。

2.按照字段值排序：通过时间来对 tweets 进行排序是有意义的，最新的 tweets 排在最前
GET /_search
{
"query" : {
"bool" : {
"filter" : { "term" : { "user_id" : 1 }}
}
},
"sort": { "date": { "order": "desc" }}
}
结果：
"hits" : {
"total" : 6,
"max_score" : null,
"hits" : [ {
"_index" : "us",
"_type" : "tweet",
"_id" : "14",
"_score" : null,
"_source" : {
"date": "2014-09-24",
...
},
"sort" : [ 1411516800000 ]
},
...
}

注：_score 不被计算, 因为它并没有用于排序。
date 字段的值表示为自 epoch (January 1, 1970 00:00:00 UTC)以来的毫秒数，通过 sort 字段的值进行返回。

如果无论如何你都要计算 _score ，你可以将 track_scores 参数设置为 true。
如果按字段排序： "sort": "number_of_children"，字段将会默认升序排序，而按照 _score 的值进行降序排序。

3.多级排序：假定我们想要结合使用 date 和 _score 进行查询，并且匹配的结果首先按照日期排序，然后按照相关性排序：
GET /_search
{
"query" : {
"bool" : {
"must": { "match": { "tweet": "manage text search" }},
"filter" : { "term" : { "user_id" : 2 }}
}
},
"sort": [
{ "date": { "order": "desc" }},
{ "_score": { "order": "desc" }}
]
}

4.多值字段的排序：
一种情形是字段有多个值的排序，需要记住这些值并没有固有的顺序；一个多值的字段仅仅是多个值的包装，这时应该选择哪个进行排序呢？

对于数字或日期，你可以将多值字段减为单值，这可以通过使用 min 、 max 、 avg 或是 sum 排序模式。
例如：你可以按照每个 date 字段中的最早日期进行排序，通过以下方法：

"sort": {
"dates": {
"order": "asc",
"mode": "min"
}
}

5.字符串排序与多字段
为了以字符串字段进行排序，这个字段应仅包含一项：整个 not_analyzed 字符串。但是我们仍需要 analyzed 字段，这样才能以全文进行查询
一个简单的方法是用两种方式对同一个字符串进行索引，这将在文档中包括两个字段： analyzed 用于搜索， not_analyzed 用于排序
但是保存相同的字符串两次在 _source 字段是浪费空间的。我们真正想要做的是传递一个单字段但是却用两种方式索引它。所有的 _core_field 类型 (strings, numbers, Booleans, dates) 接收一个 fields 参数
该参数允许你转化一个简单的映射如：

"tweet": {
"type": "string",
"analyzer": "english"
}

为一个多字段映射如：
"tweet": {
"type": "string",
"analyzer": "english",
"fields": {
"raw": {
"type": "string",
"index": "not_analyzed"
}
}
}

现在，至少只要我们重新索引了我们的数据，使用 tweet 字段用于搜索，tweet.raw 字段用于排序：

GET /_search
{
"query": {
"match": {
"tweet": "elasticsearch"
}
},
"sort": "tweet.raw"
}

CLA1989

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ES8-排序

1.为了按照相关性来排序，需要将相关性表示为一个数值。在 Elasticsearch 中，相关性得分由一个浮点数进行表示，并在搜索结果中通过 _score 参数返回，默认排序是 _score 降序。有时，相关性评分对你来说并没有意义。例如，下面的查询返回所有 user_id 字段包含 1 的结果。GET /_search{ "query" : { "bool" : { "filter" : { "term" : {...
复制链接

扫一扫