Elasticsearch聚合初探——metric篇

最新推荐文章于 2022-08-26 00:46:08 发布

weixin_34319817

最新推荐文章于 2022-08-26 00:46:08 发布

阅读量171

点赞数 1

文章标签： python 大数据

原文链接：https://my.oschina.net/u/204616/blog/545171

版权

2019独角兽企业重金招聘Python工程师标准>>>

Elasticsearch是一款提供检索以及相关度排序的开源框架，同时，也支持对存储的文档进行复杂的统计——聚合。

前言

ES中的聚合被分为两大类：Metric度量和bucket桶（原谅我英语差，找不到合适的词语.....就用单词来说吧！）。说的通俗点，metric很像SQL中的avg、max、min等方法，而bucket就有点类似group by了。

本篇就简单的介绍一下metric聚合的用法。

metric的聚合按照值的返回类型可以分为两种：单值聚合和多值聚合。

单值聚合

Sum 求和

这个聚合返回的是单个值，dsl可以参考如下：

"aggs" : {
        "intraday_return" : { "sum" : { "field" : "change" } }
    }

返回的是change字段的和：

{
    ...

    "aggregations": {
        "intraday_return": {
           "value": 2.18
        }
    }
}

其中intraday_return是聚合的名字，同时也会作为请求返回的id值。另外，聚合中是支持脚本的，这里就不过多赘述了，详细参考官方文档即可。

Min 求最小值

{
    "aggs" : {
        "min_price" : { "min" : { "field" : "price" } }
    }
}

Max 求最大值

{
    "aggs" : {
        "max_price" : { "max" : { "field" : "price" } }
    }
}

avg 求平均值

{
    "aggs" : {
        "avg_grade" : { "avg" : { "field" : "grade" } }
    }
}

cardinality 求唯一值，即不重复的字段有多少

{
    "aggs" : {
        "author_count" : {
            "cardinality" : {
                "field" : "author"
            }
        }
    }
}

多值聚合

percentiles 求百分比

{
    "aggs" : {
        "load_time_outlier" : {
            "percentile_ranks" : {
                "field" : "load_time", 
                "values" : [15, 30]
            }
        }
    }
}

返回的结果包含多个值：

{
    ...

   "aggregations": {
      "load_time_outlier": {
         "values" : {
            "15": 92,
            "30": 100
         }
      }
   }
}

stats 统计

{
    "aggs" : {
        "grades_stats" : { "stats" : { "field" : "grade" } }
    }
}

请求后会直接显示多种聚合结果：

{
    ...

    "aggregations": {
        "grades_stats": {
            "count": 6,
            "min": 60,
            "max": 98,
            "avg": 78.5,
            "sum": 471
        }
    }
}

extend stats 扩展统计

{
    "aggs" : {
        "grades_stats" : { "extended_stats" : { "field" : "grade" } }
    }
}

在统计的基础上还增加了多种复杂的统计信息：

{
    ...

    "aggregations": {
        "grade_stats": {
           "count": 9,
           "min": 72,
           "max": 99,
           "avg": 86,
           "sum": 774,
           "sum_of_squares": 67028,
           "variance": 51.55555555555556,
           "std_deviation": 7.180219742846005,
           "std_deviation_bounds": {
            "upper": 100.36043948569201,
            "lower": 71.63956051430799
           }
        }
    }
}