当企业数仓发展到一定规模后,就会出现模型迭代速度远慢于业务发展速度的现象,为了满足业务需要,DE 往往会面向需求进行快速开发,由此造成了烟囱表、数据安全、计算冗余、存储浪费等各种各样的问题。为了解决这些问题,保持离线数仓长期向好的健康状态,需要开展数据治理工作。
但在多数公司中,开展数据治理的原因往往是为了节约成本,减少计算开销和存储开销。。。下面总结一些可以优化计算和存储开销的常见方法。
1. 删除 TOPk 存储的无下游,且近 N 天无更新的 ODS 表
业务风险高,数据不可恢复,需要跟业务确认
2. 如果存在新旧模型(新旧链路)并行运行的现象,将旧模型(老链路下线)
业务风险中,需要业务做好切换数据源的工作
3. 删除 TOPk 存储的 DWD 表 N 年前的数据
业务风险中,可能存在回溯数据的需求
4. 对未执行完 EC 的表进行 EC 操作
业务风险低
5. 缩短 Hive 表 EC 的时间窗口(如缩短为7天)
业务风险低
6. 埋点模型优化治理
-
对埋点模型本身进行优化,剪裁无效列,减少原始日志数据上报量,并去清理历史数据,将无效字段删除。
-
针对原始上报数据,上报数据量 TOP 的埋点,与业务侧确认后,