背景
数仓的主要意义是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。因此建立一个统计口径来衡量数仓的作用显得很关键
1、在集群上跑的作业,包括hive、impala、spark、flink等,都会提交到yarn,可以同步yarn上的作业执行情况对应的表,建立相关的指标。
mysql 数据库域名:bg_infras1.dsjfeideedba.com
database : task_monitor
mysql 表 :hive_cdh_message;所对应的的 hive 表:bdl_monitor_hive_cdh_message
以下都是基于mysql 的统计逻辑:
2、按照query_id分组来生成最近100天的sql数据。
insert into hive_cdh_message_group_by_queryid_tianjiale(query_id,hql,stage_count,username,category,state,start_time,end_time,create_time)
select t.query_id, t.hql, count(0) as stage_count,t.username,t.category,t.state, min(t.start_time) as start_t, max(t.end_time) as end_t, now() from
(select query_id, hql, userna