数据治理过程中的几种优化手段

当企业数仓发展到一定规模后,就会出现模型迭代速度远慢于业务发展速度的现象,为了满足业务需要,DE 往往会面向需求进行快速开发,由此造成了烟囱表、数据安全、计算冗余、存储浪费等各种各样的问题。为了解决这些问题,保持离线数仓长期向好的健康状态,需要开展数据治理工作。

但在多数公司中,开展数据治理的原因往往是为了节约成本,减少计算开销和存储开销。。。下面总结一些可以优化计算和存储开销的常见方法。

1. 删除 TOPk 存储的无下游,且近 N 天无更新的 ODS 表

业务风险高,数据不可恢复,需要跟业务确认

2. 如果存在新旧模型(新旧链路)并行运行的现象,将旧模型(老链路下线)

业务风险中,需要业务做好切换数据源的工作

3. 删除 TOPk 存储的 DWD 表 N 年前的数据

业务风险中,可能存在回溯数据的需求

4. 对未执行完 EC 的表进行 EC 操作

业务风险低

5. 缩短 Hive 表 EC 的时间窗口(如缩短为7天)

业务风险低

6. 埋点模型优化治理

  1. 对埋点模型本身进行优化,剪裁无效列,减少原始日志数据上报量,并去清理历史数据,将无效字段删除。

  2. 针对原始上报数据,上报数据量 TOP 的埋点,与业务侧确认后,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值