数据仓库【质量监控】

目录

1、监控

1.1 日常监控

1.2 数据对账

1.3 性能监控

2、告警

3、多数据源

3.1  规则引擎

3.1.1 Sql模板

3.1.2 元数据

3.1.3 自定义模板

3.2 执行引擎

3.2.1 Sql执行

3.2.2 直接获取数据量

3.3 算法执行引擎

3.4 多数据源

4、数据校验


1、监控

1.1 日常监控

  • 数据落地监控
  • 数据掉0监控:实际扩展一下就是数据量阈值监控,少于某个量就告警
  • 重复数据监控:很多表一定要监控重复数据的,这点至关重要。
  • 关键指标监控
  • 数据同比环比监控

1.2 数据对账

    这点主要会体现到实时数据上,特别是Kafka数据落地,必须要有一个监控机制来知道我们的数据落地情况。
    当然离线数据同样需要数据对账,对账方法有很多,比如可以和业务库来对比。

1.3 性能监控

    我把这点理解为数据可用性监控,我认为这是一个很重要的点。 如果你做的数据别人用起来十分不爽,或者慢得要死根本没法用,那做了和没做有什么区别?
    感觉在性能监控上就是有几个点要注意:
    1. 查询性能,比如es的某个索引,在不同时间段的查询响应速度,同理presto、hive、kylin这些的查询都需要注意一下,这点可以通过任务监控来观察。
    2. 数据读写影响,机器故障影响,这点平常不太关注,不过像es这种,在写入数据的时候其实会影响读数据的,需要监控一下,并做相应调整。

2、告警

    告警就不用说了,微信、短信和电话都很有必要。
    定期的邮件汇总告警也很有必要。
    然后有很多的告警可以考虑一个告警报表系统来展示,特别像是数据量趋势这种监控内容,可视化的对比比较有效。

3、多数据源

    在目前的大数据场景下,各种开源组件引入的十分多,而且会有新的组件不停地引入,因此要考虑到对不同组件的数据监控。
    目前笔者接触比较多的会有Hive(presto、spark sqlÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员学习圈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值