数仓建设目标-统计口径

背景

数仓的主要意义是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。因此建立一个统计口径来衡量数仓的作用显得很关键

1、在集群上跑的作业,包括hive、impala、spark、flink等,都会提交到yarn,可以同步yarn上的作业执行情况对应的表,建立相关的指标。

mysql 数据库域名:bg_infras1.dsjfeideedba.com
database : task_monitor
mysql 表 :hive_cdh_message;所对应的的 hive 表:bdl_monitor_hive_cdh_message
以下都是基于mysql 的统计逻辑:

2、按照query_id分组来生成最近100天的sql数据。

insert into hive_cdh_message_group_by_queryid_tianjiale(query_id,hql,stage_count,username,category,state,start_time,end_time,create_time)
select t.query_id, t.hql, count(0) as stage_count,t.username,t.category,t.state, min(t.start_time) as start_t, max(t.end_time) as end_t, now() from
(select query_id, hql, userna

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值