ES官网reference翻译文章(14)—Extended Stats Aggregation

对ES官网的reference的翻译,同时也是备忘,ES版本为7.5

下面是正文翻译,附上原文链接:

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html

==================================================================================================

扩展统计聚合

多值指标聚合,计算从聚合的文档中提取出来的数值的统计,这些值可以从文档中某些特定的数值字段中提取出来,也可以使用给定的脚本生成。

扩展统计聚合是统计聚合的扩展版本,在扩展统计聚合中,添加了其他额外的指标,比如sum_of_squares,variance,std_deviation以及std_deviation_bounds。

假设数据由代表学生测试成绩(0-100)的文档组成:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
            }
        }
    }
}'

上面的聚合会计算所有文档的成绩数据。聚合类型为extended_stats, field设置定义了文档中被统计的具体的数值字段。上面的请求会返回:

{
    ...

    "aggregations": {
        "grades_stats": {
           "count": 2,
           "min": 50.0,
           "max": 100.0,
           "avg": 75.0,
           "sum": 150.0,
           "sum_of_squares": 12500.0,
           "variance": 625.0,
           "std_deviation": 25.0,
           "std_deviation_bounds": {
            "upper": 125.0,
            "lower": 25.0
           }
        }
    }
}

聚合的名称(这里的grades_stats)也能作为从返回的响应中提取除聚合结果的key。

标准偏差界限

默认的,extended_stats指标会返回名为std_deviation_bounds的对象,该对象提供的是一个区间,表示均值加上或者减去两个标准偏差得到的区间(比如上面均值=75,标准偏差=25,那么75-2*25=25,75+2*25=125,因此标准偏差界限就是25-125的区间),这也是视觉化你的数据的多样性的一种有用的方式。如果你想要不同的界限,比如说三个标准偏差的界限,你可以设置请求体中的sigma参数,sigma会控制从均值偏移多少标准偏差:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade",
                "sigma": 3
            }
        }
    }
}'

sigma可以是任意非负浮点数,这意味着我们可以请求非整数的值比如1.5.sigma=0是有效值,但这样upper和lower界限就都只会返回平均值。

NOTE:标准偏差和界限需要范式。默认情况下显示标准差和它的界限,但这两个指标并不一定对所有数据集都适合。你的数据需要是正态分布的才能让这两个指标有意义。标准差背后的统计远离假设的就是正态分布的数据,因此,如果你的数据向左或向右严重倾斜,则返回的值将产生误导。

脚本

可以基于下面的脚本计算成绩统计:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "script": {
                    "source": "doc['grade'].value",
                    "lang": "painless"
                }
            }
        }
    }
}'

上面的请求将会把script参数当作painless脚本语言编写的无参数的内联脚本。要使用缓存的脚本可以用下面的语句:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "script": {
                    "id": "my_script",
                    "params": {
                        "field": "grade"
                    }
                }
            }
        }
    }
}'

值脚本

假若exam的难度远超过学生的水平,我们现在需要进行成绩校准。可以使用下面的值脚本来获取新的统计数据:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
                "script": {
                    "lang": "painless",
                    "source": "_value*params.correction",
                    "params": {
                        "correction": 1.2
                    }
                }
            }
        }
    }
}'

缺失的值

missing参数定义了缺失某些值的文档应该如何处理。默认的,这些文档会被忽略但我们也能把这些文档当作有值来处理:

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
    "size": 0,
    "aggs": {
        "grades_stats": {
            "extented_stats": {
                "field": "grade"
                "missing": 0
            }
        }
    }
}'

grade字段缺失值的文档会落入跟grade=0的文档一样的桶中。 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Elasticsearch 聚合查询(Aggregation)是一种用于对数据进行多维度分析的功能。聚合查询可以用于分析数据的分布情况、计算数据的统计信息、生成图表等。在 Elasticsearch 中,聚合查询是通过使用特定的聚合器(Aggregator)来完成的。 Java 中使用 Elasticsearch 聚合查询需要使用 Elasticsearch Java API。首先需要创建一个 SearchRequest 对象,并设置需要查询的索引和查询条件。然后创建一个 AggregationBuilder 对象,用于定义聚合查询的规则和参数。最后将 AggregationBuilder 对象添加到 SearchRequest 中,执行查询操作。 以下是一个简单的 Java 代码示例,用于查询某个索引下的数据,并按照某个字段进行分组聚合查询: ``` SearchRequest searchRequest = new SearchRequest("index_name"); SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); TermsAggregationBuilder aggregationBuilder = AggregationBuilders.terms("group_by_field").field("field_name"); searchSourceBuilder.aggregation(aggregationBuilder); searchRequest.source(searchSourceBuilder); SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT); Terms terms = searchResponse.getAggregations().get("group_by_field"); for (Terms.Bucket bucket : terms.getBuckets()) { String key = bucket.getKeyAsString(); long count = bucket.getDocCount(); System.out.println("key: " + key + ", count: " + count); } ``` 在上面的代码中,首先创建了一个 SearchRequest 对象,设置需要查询的索引和查询条件。然后创建了一个 TermsAggregationBuilder 对象,用于按照某个字段进行分组聚合查询。最后将 TermsAggregationBuilder 对象添加到 SearchRequest 中,执行查询操作。 查询结果会返回一个 Terms 对象,其中包含了分组聚合查询的结果。可以使用 Terms 对象的 getBuckets() 方法获取分组聚合查询的结果列表。每个分组聚合查询结果由一个 Terms.Bucket 对象表示,其中包含了分组聚合查询的键值和文档数量等信息。 以上是简单的聚合查询示例,Elasticsearch 聚合查询功能非常强大,支持多种聚合器和聚合规则,可以根据具体需求进行调整和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值