elasticsearch 笔记四之聚合查询之去重计数、基础统计、百分位、字符串统计

本文链接：https://blog.csdn.net/weixin_43354181/article/details/106298817

这一节笔记还是聚合查询，以下是本节目录：

去重统计 cardinality
基础统计 stats
百分位 percentiles
字符串统计 string_stats

1、去重统计 cardinality

去重统计，就是统计某个字段的值，去重后的数量。

先导入如下数据：

PUT /exam/_doc/1
{
    "name" : "hunter",
    "grade": 60
}
PUT /exam/_doc/2
{
    "name" : "paul",
    "grade": 80
}
PUT /exam/_doc/3
{
    "name" : "jack",
    "grade": 90
}
PUT /exam/_doc/4
{
    "name" : "tom",
    "grade": 90
}

执行下面的语句查询：

GET /exam/_search
{
  "size": 0,
  "aggs": {
    "grade_dictinct_count": {
      "cardinality": {
        "field": "grade"
      }
    }
  }
}

返回的结果主体：

  "aggregations" : {
    "grade_dictinct_count" : {
      "value" : 3
    }
  }

因为在导入的数据中有两个 grade 是一样的值，所以返回的统计的去重后的数是 3

对应于 MySQL 中的语法是：

SELECT COUNT(DISTINCT grade) FROM table_name;

2、统计 stats

对数据进行一个简单的统计，一次性返回总数、最大值、最小值、平均值、总和。
使用方法如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_stats": {
      "stats": {
        "field": "age"
      }
    }
  }
}

返回的结果：

  "aggregations" : {
    "age_stats" : {
      "count" : 1000,
      "min" : 20.0,
      "max" : 40.0,
      "avg" : 30.171,
      "sum" : 30171.0
    }
  }

使用脚本：
也可以通过使用脚本的方式得到上面的结果：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "agg_stats": {
      "stats": {
        "script": {
          "lang": "painless",
          "source": "doc['age'].value"
        }
      }
    }
  }
}

结果：

  "aggregations" : {
    "agg_stats" : {
      "count" : 1000,
      "min" : 20.0,
      "max" : 40.0,
      "avg" : 30.171,
      "sum" : 30171.0
    }
  }

对返回的结果进行二次运算：
对返回的结果可以进行二次计算，实现比如对数据进行修正的功能

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "agg_stats": {
      "stats": {
        "field": "age",
        "script": {
          "lang": "painless",
          "source": "_value * params.correction",
          "params": {
            "correction": 1.2
          }
        }
      }
    }
  }
}

返回结果：

  "aggregations" : {
    "agg_stats" : {
      "count" : 1000,
      "min" : 24.0,
      "max" : 48.0,
      "avg" : 36.2052,
      "sum" : 36205.2
    }
  }

可以看到，除了总数 count 没有变化，最大值最小值等，都在原基础上乘以； 1.2。

3、百分位 percentiles

使用这个查询方式会返回各百分位数据的值。
比如 age 这个字段，按照大小排序，在 99% 的地方的值是 40，使用方法如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {
        "field": "age"
      }
    }
  }
}

返回结果是：

  "aggregations" : {
    "age_percentiles" : {
      "values" : {
        "1.0" : 20.0,
        "5.0" : 21.0,
        "25.0" : 25.0,
        "50.0" : 31.0,
        "75.0" : 35.0,
        "95.0" : 39.0,
        "99.0" : 40.0
      }
    }
  }

结果会默认给定1, 5, 25, 50, 75, 95, 99 这几个百分位的值。

也可以自定义几个百分位：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {
        "field": "age",
        "percents": [
          1,
          50,
          95,
          99,
          99.5
        ]
      }
    }
  }
}

就能返回自定的这些百分位的值。

前面返回的结果都是 百分位：age的值 我们也可以设置成 key-value 的形式，把 keyed 参数的值设置成 false 即可。

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {
        "field": "age",
        "keyed": false,
        "percents": [
          95,
          99
        ]
      }
    }
  }
}

值的反查 percentile_ranks：
前面我们是根据百分位去获取值，我们也可以根据值来获取所处的百分位，使用参数 percentile_ranks。

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percent_ranks": {
      "percentile_ranks": {
        "field": "age",
        "values": [
          35,
          37,
          40
        ]
      }
    }
  }
}

返回结果：

  "aggregations" : {
    "age_percent_ranks" : {
      "values" : {
        "35.0" : 75.5,
        "37.0" : 85.3,
        "40.0" : 100.0
      }
    }
  }

表示 age 值为 35、37、40 的分别处在数据里的这几个百分位。

4、字符串统计 string_stats

为了验证方便，我们还是用前面导入的 exam 这个 index。
对 name 这个字段进行统计，可以返回每条数据中 name 字段的最大长度，最小长度，平均长度等值：

使用方法如下：

GET /exam/_search
{
  "size": 0,
  "aggs": {
    "message_stats": {
      "string_stats": {
        "field": "name.keyword"
      }
    }
  }
}

设置 show_distribution 字段为 true 可以把字母统计的结果返回，使用方法如下：

GET /exam/_search
{
  "size": 0,
  "aggs": {
    "name_stats": {
      "string_stats": {
        "field": "name.keyword",
        "show_distribution": true
      }
    }
  }
}

返回结果如下：

"aggregations" : {
    "name_stats" : {
      "count" : 4,
      "min_length" : 3,
      "max_length" : 6,
      "avg_length" : 4.25,
      "entropy" : 3.7345216647797517,
      "distribution" : {
        "a" : 0.11764705882352941,
        "t" : 0.11764705882352941,
        "u" : 0.11764705882352941,
        "c" : 0.058823529411764705,
        "e" : 0.058823529411764705,
        "h" : 0.058823529411764705,
        "j" : 0.058823529411764705,
        "k" : 0.058823529411764705,
        "l" : 0.058823529411764705,
        "m" : 0.058823529411764705,
        "n" : 0.058823529411764705,
        "o" : 0.058823529411764705,
        "p" : 0.058823529411764705,
        "r" : 0.058823529411764705
      }
    }
  }

以下是两种使用 script 的方法运行：

GET /exam/_search
{
  "size": 0,
  "aggs": {
    "name_stats": {
      "string_stats": {
        "script": {
          "lang": "painless",
          "source": "doc['name.keyword'].value"
        },
        "show_distribution": true
      }
    }
  }
}

GET /exam/_search
{
  "size": 0,
  "aggs": {
    "name_stats": {
      "string_stats": {
        "field": "name.keyword",
        "script": {
          "lang": "painless",
          "source": "params.prefix + _value",
          "params": {
            "prefix": "name: "
          }
        }
      }
    }
  }
}