ES官网reference翻译文章(14)—Extended Stats Aggregation

最新推荐文章于 2023-05-18 20:27:42 发布

_silverBlack

最新推荐文章于 2023-05-18 20:27:42 发布

阅读量489

点赞数

分类专栏： elasticsearch

原文链接：https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html

版权

elasticsearch 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

对ES官网的reference的翻译，同时也是备忘，ES版本为7.5

下面是正文翻译，附上原文链接：

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html

==================================================================================================

扩展统计聚合

多值指标聚合，计算从聚合的文档中提取出来的数值的统计，这些值可以从文档中某些特定的数值字段中提取出来，也可以使用给定的脚本生成。

扩展统计聚合是统计聚合的扩展版本，在扩展统计聚合中，添加了其他额外的指标，比如sum_of_squares，variance，std_deviation以及std_deviation_bounds。

假设数据由代表学生测试成绩（0-100）的文档组成：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
            }
        }
    }
}'

上面的聚合会计算所有文档的成绩数据。聚合类型为extended_stats, field设置定义了文档中被统计的具体的数值字段。上面的请求会返回：

{
    ...

    "aggregations": {
        "grades_stats": {
           "count": 2,
           "min": 50.0,
           "max": 100.0,
           "avg": 75.0,
           "sum": 150.0,
           "sum_of_squares": 12500.0,
           "variance": 625.0,
           "std_deviation": 25.0,
           "std_deviation_bounds": {
            "upper": 125.0,
            "lower": 25.0
           }
        }
    }
}

聚合的名称（这里的grades_stats）也能作为从返回的响应中提取除聚合结果的key。

标准偏差界限

默认的，extended_stats指标会返回名为std_deviation_bounds的对象，该对象提供的是一个区间，表示均值加上或者减去两个标准偏差得到的区间（比如上面均值=75，标准偏差=25，那么75-2*25=25，75+2*25=125，因此标准偏差界限就是25-125的区间），这也是视觉化你的数据的多样性的一种有用的方式。如果你想要不同的界限，比如说三个标准偏差的界限，你可以设置请求体中的sigma参数，sigma会控制从均值偏移多少标准偏差：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade",
                "sigma": 3
            }
        }
    }
}'

sigma可以是任意非负浮点数，这意味着我们可以请求非整数的值比如1.5.sigma=0是有效值，但这样upper和lower界限就都只会返回平均值。

NOTE：标准偏差和界限需要范式。默认情况下显示标准差和它的界限，但这两个指标并不一定对所有数据集都适合。你的数据需要是正态分布的才能让这两个指标有意义。标准差背后的统计远离假设的就是正态分布的数据，因此，如果你的数据向左或向右严重倾斜，则返回的值将产生误导。

脚本

可以基于下面的脚本计算成绩统计：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "script": {
                    "source": "doc['grade'].value",
                    "lang": "painless"
                }
            }
        }
    }
}'

上面的请求将会把script参数当作painless脚本语言编写的无参数的内联脚本。要使用缓存的脚本可以用下面的语句：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "script": {
                    "id": "my_script",
                    "params": {
                        "field": "grade"
                    }
                }
            }
        }
    }
}'

值脚本

假若exam的难度远超过学生的水平，我们现在需要进行成绩校准。可以使用下面的值脚本来获取新的统计数据：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
                "script": {
                    "lang": "painless",
                    "source": "_value*params.correction",
                    "params": {
                        "correction": 1.2
                    }
                }
            }
        }
    }
}'

缺失的值

missing参数定义了缺失某些值的文档应该如何处理。默认的，这些文档会被忽略但我们也能把这些文档当作有值来处理：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
                "missing": 0
            }
        }
    }
}'

grade字段缺失值的文档会落入跟grade=0的文档一样的桶中。

_silverBlack

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ES官网reference翻译文章(14)—Extended Stats Aggregation

对ES官网的reference的翻译，同时也是备忘，ES版本为7.5下面是正文翻译，附上原文链接：https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html=======================...
复制链接

扫一扫