目录
1、监控
1.1 日常监控
-
数据落地监控
-
数据掉0监控:实际扩展一下就是数据量阈值监控,少于某个量就告警
-
重复数据监控:很多表一定要监控重复数据的,这点至关重要。
-
关键指标监控
-
数据同比环比监控
1.2 数据对账
这点主要会体现到实时数据上,特别是Kafka数据落地,必须要有一个监控机制来知道我们的数据落地情况。
当然离线数据同样需要数据对账,对账方法有很多,比如可以和业务库来对比。
1.3 性能监控
我把这点理解为数据可用性监控,我认为这是一个很重要的点。 如果你做的数据别人用起来十分不爽,或者慢得要死根本没法用,那做了和没做有什么区别?
感觉在性能监控上就是有几个点要注意:
1. 查询性能,比如es的某个索引,在不同时间段的查询响应速度,同理presto、hive、kylin这些的查询都需要注意一下,这点可以通过任务监控来观察。
2. 数据读写影响,机器故障影响,这点平常不太关注,不过像es这种,在写入数据的时候其实会影响读数据的,需要监控一下,并做相应调整。
2、告警
告警就不用说了,微信、短信和电话都很有必要。
定期的邮件汇总告警也很有必要。
然后有很多的告警可以考虑一个告警报表系统来展示,特别像是数据量趋势这种监控内容,可视化的对比比较有效。
3、多数据源
在目前的大数据场景下,各种开源组件引入的十分多,而且会有新的组件不停地引入,因此要考虑到对不同组件的数据监控。
目前笔者接触比较多的会有Hive(presto、spark sqlÿ