扩展状态聚合
多值度量聚合,计算从聚合文档中提取的数值的统计信息。这些值可以从文档中的特定数字字段中提取,也可以由提供的脚本生成。
extended_stats 聚合是统计聚合的扩展版本,其中添加了额外的度量,如平方和、方差、标准偏差和标准偏差界限。
假设数据由代表学生考试成绩(0到100)的文档组成
GET /exams/_search
{
"size": 0,
"aggs": {
"grades_stats": {
"extended_stats": {
"field": "grade"
}
}
}
}
上面的聚合计算所有文档的等级统计。聚合类型是扩展的,字段设置定义将计算统计信息的文档的数字字段。上面将返回以下内容:
{
...
"aggregations": {
"grades_stats": {
"count": 2,
"min": 50.0,
"max": 100.0,
"avg": 75.0,
"sum": 150.0,
"sum_of_squares": 12500.0,
"variance": 625.0,
"std_deviation": 25.0,
"std_deviation_bounds": {
"upper": 125.0,
"lower": 25.0
}
}
}
}
聚合的名称(上面的Grades_Stats)也用作键,通过该键可以从返回的响应中检索聚合结果。
标准解除界限
默认情况下,扩展的_stats度量将返回一个名为std_deviation_bounds的对象,该对象提供一个与平均值正负两个标准差的间隔。这是一种可视化数据差异的有用方法。如果需要不同的边界,例如三个标准偏差,可以在请求中设置Sigma:
GET /exams/_search
{
"size": 0,
"aggs": {
"grades_stats": {
"extended_stats": {
"field": "grade",
"sigma":3 <1>
}
}
}
}
-
sigma控制应显示多少标准偏差+/-与平均值
sigma可以是任何非负双精度,这意味着您可以请求非整数值,如1.5。值0有效,但只返回上界和下界的平均值。
注意:标准差和界限需要正态性
默认情况下会显示标准偏差及其边界,但它们并不总是适用于所有数据集。您的数据必须是正常分布的,以使度量有意义。标准偏差后面的统计数据假定为正态分布的数据,因此,如果您的数据严重向左或向右倾斜,返回的值将是误导性的。
脚本
根据脚本计算成绩统计:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"script" : {
"source" : "doc['grade'].value",
"lang" : "painless"
}
}
}
}
}
这将把脚本参数解释为具有无参脚本语言且没有脚本参数的内联脚本。要使用存储的脚本,请使用以下语法:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"script" : {
"id": "my_script",
"params": {
"field": "grade"
}
}
}
}
}
}
脚本值
结果证明,考试远高于学生的水平,需要进行分数修正。我们可以使用值脚本获取新的统计信息:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"field" : "grade",
"script" : {
"lang" : "painless",
"source": "_value * params.correction",
"params" : {
"correction" : 1.2
}
}
}
}
}
}
缺省值
缺少参数定义如何处理缺少值的文档。默认情况下,它们将被忽略,但也可以将它们视为具有值。
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"field" : "grade",
"missing": 0 <1>
}
}
}
}
-
“grade”字段中没有值的文档与值为0的文档属于同一个存储桶。