ElasticSearch(八)— 聚集查询1

敲代码的小小酥

于 2024-07-29 11:37:39 发布

阅读量1.3k

点赞数 15

分类专栏： ElasticSearch 文章标签： elasticsearch jenkins 大数据

本文链接：https://blog.csdn.net/qq1309664161/article/details/140763647

版权

ElasticSearch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、总概

聚集查询(Aggregation)提供了针对多条文档的统计运算功能，它不是针对文档本身内容的检索，而是要将它们聚合到一起运算某些方面的特征值。
聚集查询与 SQL 语言中的聚集函数非常像，聚集函数在 Elasticsearch 中相当于是聚集查询的一种聚集类型。比如在 SQL 中的 avg 函数用于求字段平均值，而在 Elasticsearch 中要实现相同的功能可以使用 avg 聚集类型。

聚集查询也是通过_search 接口执行，只是在执行聚集查询时使用的参数是
aggregations 或 aggs。所以_search 接口可以执行两种类型的查询，1 种是通过query 参数执行 DSL，另一种则是通过 aggregations 执行聚集查询。

这两种查询方式还可以放在一起使用，执行逻辑是先通过 DSL 检索满足查
询条件的文档，然后再使用聚集查询对 DSL 检索结果做聚集运算这一规则适用于本章列举的所有聚集查询。聚集查询有着比较规整的请求结构，具体格式如下:

"aggregations/aggs": {
	"<聚集名称>": {
		"<聚集类型>": {
			<聚集体>
		}………[,
		"aggregations/aggs": ([<子聚集>]+)]
	}[,
	"<聚集名称>”: (...) ]*
}

aggregations 和 aggs 都是_search 的参数，其中 aggs 是 agregations 的简写。每一个聚集查询都需要定义一个聚集名称，并归属于种聚集类型。聚集名称是用户自定义的，而聚集类型则是由 Elasticsearch 预先定义好。

聚集名称会在返回结果中标识聚集结果，而聚集类型则决定了聚集将如何运
算。比如前面提到的 avg 就是一种聚集类型。这里要特别强调的是，聚集中可以再包含子聚集。子聚集位于父聚集的名称中，与聚集类型同级，所以子聚集的运算都是在父聚集的环境中运算。Eaticsarch 对子聚集的深度没有限制，所以理论上说可以包含无限深度的子聚集。

聚集类型总体上被分为四种大类型，即指标聚集(Metrics Aggregation)、桶
型( Bucket Aggregation)、管道聚集( Pipeline Aggregation) 和矩阵聚集( Matrix Aggregation)。

指标聚集是根据文档字段所包含的值运算某些统计特征值，如平均值、总和
等，它们的结果一般都包含一个或多个数值，前面提到的 avg 聚集就是指标聚集的 1 种。桶型聚集根据一定的分组标准将文档归到不同的组中，这些分组在Elasticsearch 中被称为桶( Bucken)，桶型聚集与 SQL 中 group by 的作用类似，一般会与指标聚集嵌套使用。管道聚集可以理解为聚集结果的再聚集，它一般以另一个聚集结果作为输人，然后在此基础上再做聚集。矩阵聚集是 Elasticsearch 中的新功能，由于是针对多字段做多种运算，所以形成的结果类似于矩阵。

二、指标聚集

指标聚集是根据文档中某一字段做聚集运算，比如计算所有产品销量总和、
平均值等等。指标聚集的结果可能是单个值，这种指标聚集称为单值指标聚集;也可能是多个值，称为多值指标聚集。

2.1 平均值聚集

平均值聚集是根据文档中数值类型字段计算平均值的聚集查询，包括 avg 聚集和 weighted_avg 聚集两种类型。avg 聚集直接取字段值后计算平均值，而weighted _avg 聚集则会在计算平均值时添加不同的权重。

avg 聚集
avg 聚集计算平均值，例如在示例中计算航班的平均延误时间：

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"delay_avg": {
			"avg": {
				"field": "FlightDelayMin"
			}
		}
	}
}

请求参数 fiter _path 将返回结果的其他字段过滤掉了，否则查询的结果中将包含 kibana_sample_data_flights 索引中的文档。加了filter_path 之后返果为:
在这里插入图片描述
在返回结果中，aggregations 是关键字，代表这是聚集查询的结果。其中的delay_avg 则是在聚集查询中定义的聚集名称，value 是聚集运算的结果。
上述运算航班延误时间时会将所有文档都包含进来做计算，如果只想其
中一部分文档参与运算则可以使用 query 参数以 DSL 的形式定义查询条件。
例如在示例中就是只计算了飞往中国的航班平均延误时间:

POST indexname/_search?filter_path=aggregations{
	"query": {
		"match": {
			"DestCountry": "CN"
		}
	},
	"aggs": {
		"delay_avg": {
			"avg": {
				"field": "FlightDelayMin"
			}
		}
	}
}

请求_search 接口时，同时使用了 query 与 aggs 参数。在执行检索时会先通过 query 条件过滤文档，然后再在符合条件的文档中运算平均值聚集。

2.2 计数聚集与极值聚集

计数聚集用于统计字段值的数量，而极值聚集则是查找字段的极大值和极小
值。
计数聚集
value_count 聚集和 cardinality 聚集可以归入计数聚集中，前者用于统计从
字段中取值的总数，而后者则用于统计不重复数值的总数。例如:

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"country_code": {
			"cardinality": {
				"field": "DestCountry"
			}
		},
		"total_country": {
			"value_count": {
				"field": "DestCountry"
			}
		}
	}
}

在示例中，cardinality 聚集统计了 DestCountry 字段非重复值的数量，类似
于 SQL 中的 distinct。value_count 聚集则统计了 DestCountry 字段所有返回值的数量，类似于 SQL 中的 count。

需要注意的是，cardinality 聚集的算法使用极小内存实现统计结果的基本准
确。所以 cardinality 在数据量极大的情况下是不能保证完全准确的。

极值聚集
极值聚集是在文档中提取某一字段最大值或最小值的聚集，包括 max 聚集
和 min 聚集。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"max_price": {
			"max": {
				"field": "AvgTicketPrice"
			}
		},
		"min_price": {
			"min": {
				"field": "AvgTicketPrice"
			}
		}
	}
}

上面例子聚集有 max_price 和 min_price 两个，它们分别计算了机票价格的最大的最小值。

三、统计聚集

统计聚集是一个多值指标聚集，也就是返回结果中会包含多个值，都是一些
与统计相生的数据。统计聚集包含 stats 聚集和 extended_stats 聚集两种，前者返回的统计数据是一些比较基本的数值，而后者则包含一些比较专业的统计数值。

stats 聚集
stats 聚集返回结果中包括字段的最小值(min)、最大值(max)、总和(sum)、数业(coun) 及平均值(avg) 五项内容。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"price_stats": {
			"stats": {
				"field": "AvgTicketPrice"
			}
		}
	}
}

在示例中，stats 聚集使用 field 参数指定参与统计运算的字段为
AvgTicketPrice。

extended_stats 聚集
extended_stats 聚集增加了几项统计数据，这包括平方和、方差、标准方差和标准方差偏移量。从使用的角度来看，extended_stats 聚集与 stats 聚集完全相同，只是聚集类型不同。

四、百分位聚集

百分位聚集根据文档字段值统计字段值按百分比的分布情况，包括pecrentiles 聚集和 percentile_ranks 两种。前者统计的是百分比与值的对应关系，而后者正好相反统计值与百分比的对应关系。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"price_percentile": {
			"percentiles": {
				"field": "AvgTicketPrice",
				"percents": [25,
				50,
				75,
				100]
			}
		},
		"price_percentile_rank": {
			"percentile_ranks": {
				"field": "AvgTicketPrice",
				"values": [600,
				1200]
			}
		}
	}
}

pecrentiles 聚集通过 pecrents 参数设置组百分比，然后按值由小到大的顺序划分不同区间，每个区间对应一个百分比。percentile_ranks 聚集则通过 value 参数设置组值，然后根据这些值分别计算落在不同值区间的百分比。
以示例返回的结果为例:
在这里插入图片描述
在 pecrentiles 返回结果 price_percentile 中，““25.0”:410.0127977258341" 代表的含义是 25%的机票价格都小于 410.0127977258341，其他以此类推。在percentile_ranks 返回结果 price_percentile_rank 中， 600.0": 45. 39892372745635"代表的含义是 600.0 以下的机票占总机票价格的百分比为45.39892372745635%。