数据仓库【质量监控】

最新推荐文章于 2023-06-01 15:02:28 发布

程序员学习圈

最新推荐文章于 2023-06-01 15:02:28 发布

阅读量902

点赞数

分类专栏： # 数据仓库文章标签：数据仓库 big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luomingkui1109/article/details/109147858

版权

目录

1.1 日常监控

1.2 数据对账

1.3 性能监控

3、多数据源

3.1 规则引擎

3.1.1 Sql模板

3.1.2 元数据

3.1.3 自定义模板

3.2 执行引擎

3.2.1 Sql执行

3.2.2 直接获取数据量

3.3 算法执行引擎

3.4 多数据源

4、数据校验

1、监控

1.1 日常监控

数据落地监控
数据掉0监控：实际扩展一下就是数据量阈值监控，少于某个量就告警
重复数据监控：很多表一定要监控重复数据的，这点至关重要。
关键指标监控
数据同比环比监控

1.2 数据对账

这点主要会体现到实时数据上，特别是Kafka数据落地，必须要有一个监控机制来知道我们的数据落地情况。

当然离线数据同样需要数据对账，对账方法有很多，比如可以和业务库来对比。

1.3 性能监控

我把这点理解为数据可用性监控，我认为这是一个很重要的点。如果你做的数据别人用起来十分不爽，或者慢得要死根本没法用，那做了和没做有什么区别？

感觉在性能监控上就是有几个点要注意：

1. 查询性能，比如es的某个索引，在不同时间段的查询响应速度，同理presto、hive、kylin这些的查询都需要注意一下，这点可以通过任务监控来观察。

2. 数据读写影响，机器故障影响，这点平常不太关注，不过像es这种，在写入数据的时候其实会影响读数据的，需要监控一下，并做相应调整。

2、告警

告警就不用说了，微信、短信和电话都很有必要。

定期的邮件汇总告警也很有必要。

然后有很多的告警可以考虑一个告警报表系统来展示，特别像是数据量趋势这种监控内容，可视化的对比比较有效。

3、多数据源

在目前的大数据场景下，各种开源组件引入的十分多，而且会有新的组件不停地引入，因此要考虑到对不同组件的数据监控。

目前笔者接触比较多的会有Hive（presto、spark sqlÿ

最低0.47元/天解锁文章

程序员学习圈

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员学习圈 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。