ELK可视化报表解决多表聚合生成报表问题

最新推荐文章于 2024-08-09 11:24:06 发布

当以乐

最新推荐文章于 2024-08-09 11:24:06 发布

阅读量6.3k

点赞数

分类专栏：日志系统文章标签： ELK 多表聚合自动化报表 ES 聚类

本文链接：https://blog.csdn.net/sqh201030412/article/details/78303961

版权

本文探讨如何利用ELK堆栈中的Kibana Visualize模块和Elasticsearch聚合功能，解决多表聚合生成报表的挑战。通过Timelion表达式语言，实现了从不同索引获取数据并进行计算，从而自动化生成每天的搜索到下单转化率报表。这种方法减少了编写SQL、后端代码和前端JS的复杂性，提高了报表创建的效率。

摘要由CSDN通过智能技术生成

大家平时都用过ELK做日志搜索和展示吧?kibana中有Visualize模块,能够生成各种各样的图表,但是只能对单一化表进行统计处理.

现在我们要面临一个这样的需求:

1.我有两张原始搜索表和订单表

2.现在要计算每天的搜索到下单的转化率并且在前端以报表的形式来进行展示

分析:

这个问题涉及到每张表根据时间做统计后再次做处理生产一组数据,传递到前端JS生成要展示的报表的流程.

按道理说做这个过程不是很难,但是需要写相应的SQL,后台代码,前端JS代码,如果有需要这种报表,我们每次都要写类似的代码

很麻烦,现在想将这类需求的解决方案简化为某些查询语句,然后就可以自动化的出现相应的报表.

ELK官方文档地址 :https://www.elastic.co/guide/index.html

我是从ELK来尝试解决这个问题的,上面说到Visualize模块生成单表图表,查看了其发送的请求参数.发现其使用到了ES中的聚合(Aggregations).首先要验证下ES是否能支持上述的需求的解决,如果ES能直接进行多索引聚合后的计算工作,那么在看看前端时候

能够根据查询来画图即可.然后我将问题转化为求不同索引聚类后的再计算问题.带着问题查询官方问题,查找解决方案.

首先我们看一条基本的聚类语句(语句测试皆在ELK Dev Tools下):

{
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "query_string": {
            "analyze_wildcard": true,
            "query": "*"
          }
        },
        {
          "range": {
            "@timestamp": {
              "gte": 1508401847040,
              "lte": 1508402747040,
              "format": "epoch_millis"
            }
          }
        }
      ],
      "must_not": []
    }
  },
  "aggs": {
    "out_field": {
      "date_histogram": {
        "field": "@timestamp",
        "interval": "60s",
        "time_zone": "Asia/Shanghai",
        "min_doc_count": 1     
      },
      "aggs": {
        "sum_time":{
           "sum":{
               "field" : "time"
           }
        }
      }
    }
  }
}

这个语句的是意思是先过滤出要查询的时间段内的数据,然后第一层聚类根据时间间隔为60s聚类字段为@timestamp

然后再这个聚类桶结果中再次进行了一次聚类,聚类字段为time得求和.

首先,我们考虑的问题是,拿到两个索引集合的数据,这个ELK可以用索引前缀的统配拿到,理论上我们是可以拿到一个包含两个

索引集合结果的数据集的,下面我们要考的问题是,如果将两个索引集合在第一次聚类(时间聚类)后,分开进行聚类处理,即将两个索引分辨出来,这里我查找到聚类中有桶过滤一说:

https://www.elastic.co/guide/en/elasticsearch/reference/5.0/search-aggregations-bucket-filter-aggregation.html

例子:

{
    "aggs" : {
        "red_products" : {
            "filter" : { "term": { "color": "red" } },
            "aggs" : {
                "avg_price" : { "avg" : { "field" : "price" } }
            }
        }
    }
}

意思是能在过滤后再进行聚类操作,有了这个桶过滤,我们仅仅需要设置一个能标识各个索引得通用字段,就能够分辨出来各个索引了,

从而对单独的表数据进行聚类处理.

再次,我们可以单独对某张索引聚类后,需要讲聚类后的结果再次进行组合处理,前文中说到的转化率,现在已经进行到了,分别拿到了两张表的某段时间(一天)得数据量,需要再对他们做一次除法来求转化率,这里的问题是,如何拿到两次聚类后的结果,并且进行处理?

这里还是要去查看官方问题.有一节提到桶脚本操作: