1:大数据稳定性建设
大数据平台承载着公司(推荐、搜索、bi、渠道推广)等多条核心业务线。一旦某环节出现问题,可能影响很多线上用户。基于以上情况联合运维一起做线上稳定性建设,把各个体系的监控、预警提升到一个新高度。
2:如何构建线上稳定性
我们的组件监控在1.0版本中已上prometheus+grafana,线上各种组件监控已经有初步的保障。但是线上很多业务细节的监控缺乏保障,监控的颗粒度不够。到真正出现问题,所有人手忙脚乱。大数据平台一定需要业务赋能+稳定性治理,在业务赋能的的同时,逐步完善保障体系。
稳定性建设模块 | 具体的预案 |
线上服务治理 | 1:大数据数据块预警 2:监控application,做到保活、c端服务支持弹性扩容3:线上依赖的jar管理。 |
组件稳定性建设 | 1:kylin,clickhouse,hbase,redis,elasticsearch 存储优化、组件监控、保活。 |
ETL链路检查 | 1:核心数据异常指标监控2:数据空洞、重跑、补充等。 |
埋点链路数据检查 | 1:埋点收集异常检测2:线上问题追踪,反查,数据补充。 |
推荐服务检查 | 1:推荐核心链路执行情况监控,异常、任务执行失败通知 2:线上常用key数据检查。 |
线上hot key检查 | 1&# |