ElasticSearch(八)— 聚集查询1

一、总概

聚集查询(Aggregation)提供了针对多条文档的统计运算功能,它不是针对文档本身内容的检索,而是要将它们聚合到一起运算某些方面的特征值。
聚集查询与 SQL 语言中的聚集函数非常像,聚集函数在 Elasticsearch 中相当于是聚集查询的一种聚集类型。 比如在 SQL 中的 avg 函数用于求字段平均值,而在 Elasticsearch 中要实现相同的功能可以使用 avg 聚集类型。

聚集查询也是通过_search 接口执行,只是在执行聚集查询时使用的参数是
aggregations 或 aggs。所以_search 接口可以执行两种类型的查询,1 种是通过query 参数执行 DSL,另一种则是通过 aggregations 执行聚集查询。

这两种查询方式还可以放在一起使用, 执行逻辑是先通过 DSL 检索满足查
询条件的文档,然后再使用聚集查询对 DSL 检索结果做聚集运算这一规则适用于本章列举的所有聚集查询。聚集查询有着比较规整的请求结构,具体格式如下:

"aggregations/aggs": {
	"<聚集名称>": {
		"<聚集类型>": {
			<聚集体>
		}………[,
		"aggregations/aggs": ([<子聚集>]+)]
	}[,
	"<聚集名称>”: (...) ]*
}

aggregations 和 aggs 都是_search 的参数,其中 aggs 是 agregations 的简写。每一个聚集查询都需要定义一个聚集名称,并归属于种聚集类型。聚集名称是用户自定义的, 而聚集类型则是由 Elasticsearch 预先定义好。

聚集名称会在返回结果中标识聚集结果,而聚集类型则决定了聚集将如何运
算。比如前面提到的 avg 就是一种聚集类型。 这里要特别强调的是,聚集中可以再包含子聚集。子聚集位于父聚集的名称中,与聚集类型同级,所以子聚集的运算都是在父聚集的环境中运算。Eaticsarch 对子聚集的深度没有限制,所以理论上说可以包含无限深度的子聚集。

聚集类型总体上被分为四种大类型,即指标聚集(Metrics Aggregation)、 桶
型( Bucket Aggregation)、管道聚集( Pipeline Aggregation) 和矩阵聚集( Matrix Aggregation)。

指标聚集是根据文档字段所包含的值运算某些统计特征值,如平均值、总和
等,它们的结果一般都包含一个或多个数值,前面提到的 avg 聚集就是指标聚集的 1 种。桶型聚集根据一定的分组标准将文档归到不同的组中,这些分组在Elasticsearch 中被称为桶( Bucken),桶型聚集与 SQL 中 group by 的作用类似,一般会与指标聚集嵌套使用。管道聚集可以理解为聚集结果的再聚集,它一般以另一个聚集结果作为输人,然后在此基础上再做聚集。矩阵聚集是 Elasticsearch 中的新功能,由于是针对多字段做多种运算,所以形成的结果类似于矩阵。

二、 指标聚集

指标聚集是根据文档中某一字段做聚集运算,比如计算所有产品销量总和、
平均值等等。指标聚集的结果可能是单个值,这种指标聚集称为单值指标聚集;也可能是多个值,称为多值指标聚集。

2.1 平均值聚集

平均值聚集是根据文档中数值类型字段计算平均值的聚集查询,包括 avg 聚集和 weighted_avg 聚集两种类型。avg 聚集直接取字段值后计算平均值,而weighted _avg 聚集则会在计算平均值时添加不同的权重。

avg 聚集
avg 聚集计算平均值,例如在示例中计算航班的平均延误时间:

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"delay_avg": {
			"avg": {
				"field": "FlightDelayMin"
			}
		}
	}
}

请求参数 fiter _path 将返回结果的其他字段过滤掉了,否则查询的结果中将包含 kibana_sample_data_flights 索引中的文档。加了filter_path 之后返果为:
在这里插入图片描述
在返回结果中,aggregations 是关键字,代表这是聚集查询的结果。其中的delay_avg 则是在聚集查询中定义的聚集名称,value 是聚集运算的结果。
上述运算航班延误时间时会将所有文档都包含进来做计算,如果只想其
中一部分文档参与运算则可以使用 query 参数以 DSL 的形式定义查询条件。
例如在示例中就是只计算了飞往中国的航班平均延误时间:

POST indexname/_search?filter_path=aggregations{
	"query": {
		"match": {
			"DestCountry": "CN"
		}
	},
	"aggs": {
		"delay_avg": {
			"avg": {
				"field": "FlightDelayMin"
			}
		}
	}
}

请求_search 接口时,同时使用了 query 与 aggs 参数。在执行检索时会先通过 query 条件过滤文档,然后再在符合条件的文档中运算平均值聚集。

2.2 计数聚集与极值聚集

计数聚集用于统计字段值的数量,而极值聚集则是查找字段的极大值和极小
值。
计数聚集
value_count 聚集和 cardinality 聚集可以归入计数聚集中,前者用于统计从
字段中取值的总数,而后者则用于统计不重复数值的总数。例如:

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"country_code": {
			"cardinality": {
				"field": "DestCountry"
			}
		},
		"total_country": {
			"value_count": {
				"field": "DestCountry"
			}
		}
	}
}

在示例中,cardinality 聚集统计了 DestCountry 字段非重复值的数量,类似
于 SQL 中的 distinct。value_count 聚集则统计了 DestCountry 字段所有返回值的数量,类似于 SQL 中的 count。

需要注意的是,cardinality 聚集的算法使用极小内存实现统计结果的基本准
确。所以 cardinality 在数据量极大的情况下是不能保证完全准确的。

极值聚集
极值聚集是在文档中提取某一字段最大值或最小值的聚集,包括 max 聚集
和 min 聚集。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"max_price": {
			"max": {
				"field": "AvgTicketPrice"
			}
		},
		"min_price": {
			"min": {
				"field": "AvgTicketPrice"
			}
		}
	}
}

上面例子聚集有 max_price 和 min_price 两个,它们分别计算了机票价格的最大的最小值。

三、统计聚集

统计聚集是一个多值指标聚集,也就是返回结果中会包含多个值,都是一些
与统计相生的数据。统计聚集包含 stats 聚集和 extended_stats 聚集两种,前者返回的统计数据是一些比较基本的数值,而后者则包含一些比较专业的统计数值。

stats 聚集
stats 聚集返回结果中包括字段的最小值(min)、 最大值(max)、总和(sum)、数业(coun) 及平均值(avg) 五项内容。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"price_stats": {
			"stats": {
				"field": "AvgTicketPrice"
			}
		}
	}
}

在示例中,stats 聚集使用 field 参数指定参与统计运算的字段为
AvgTicketPrice。

extended_stats 聚集
extended_stats 聚集增加了几项统计数据,这包括平方和、方差、标准方差和标准方差偏移量。从使用的角度来看,extended_stats 聚集与 stats 聚集完全相同,只是聚集类型不同。

四、百分位聚集

百分位聚集根据文档字段值统计字段值按百分比的分布情况,包括pecrentiles 聚集和 percentile_ranks 两种。前者统计的是百分比与值的对应关系,而后者正好相反统计值与百分比的对应关系。

POST indexname/_search?filter_path=aggregations{
	"aggs": {
		"price_percentile": {
			"percentiles": {
				"field": "AvgTicketPrice",
				"percents": [25,
				50,
				75,
				100]
			}
		},
		"price_percentile_rank": {
			"percentile_ranks": {
				"field": "AvgTicketPrice",
				"values": [600,
				1200]
			}
		}
	}
}

pecrentiles 聚集通过 pecrents 参数设置组百分比,然后按值由小到大的顺序划分不同区间,每个区间对应一个百分比。percentile_ranks 聚集则通过 value 参数设置组值, 然后根据这些值分别计算落在不同值区间的百分比。
以示例返回的结果为例:
在这里插入图片描述
在 pecrentiles 返回结果 price_percentile 中,““25.0”:410.0127977258341" 代表的含义是 25%的机票价格都小于 410.0127977258341,其他以此类推。在percentile_ranks 返回结果 price_percentile_rank 中, 600.0": 45. 39892372745635"代表的含义是 600.0 以下的机票占总机票价格的百分比为45.39892372745635%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

敲代码的小小酥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值