【数据治理】为什么需要数据治理

1. 为什么需要数据治理

开发不范化 & 业务了解不足(规范):由于数据仓库在应对业务前中期快速扩张,要覆盖更多场景应用,存在大量急于
求成,未按照规范开发的情况发生,也存在代码规范较差后续交接看不懂的情况。同时也存在对业务数据未做深度剖
析,导致数据质量问题频发;
缺少上线前保障(校验):由于开发时候验数据不够细心没有对数据大体情况检查,添加字段后没对测试环境与线上环
境数据比对,导致历史数据对不上;
数据链路节点缺少质量保障(稽核):数据质量 0 保障建设,从而对问题数据无感知,导致问题数据、空数据等传输至
下游,最终流入业务侧数据出现问题;
数据运维不及时(出数时间):数据不能及时产出导致可视化大屏/看板/产品端无数据响应,影响到下游用数体验;
业务数据问题处理无机制(流程):下游对于数据问题不知该如何上报修复,缺少流程化,机制化;
上游数据源存在问题且难处理(常态):上游数据问题处理难配合,常推辞拒绝,数据仓库侧常常提供案例内容难实现
上游自助化查询解决,同时无法建立上游数据问题处理机制。

2. 数仓发展阶段

2.1. 初始期
 这个时期的业务特点往往是比较单一的,并且数据量相对较少。所以这个时期的核心诉求为快速支持业务团队包括数
据分析、运营、风控等,更多是统一数据仓库内部规范,通过核心数据模型支撑下游应用。

2.2. 扩张期
这个时期的业务飞速增长,有大量的派生指标,衍生指标会在 BI、分析、算法等多个场景重复使用,需要数据仓库快
速支持业务。这就需要数据仓库同学接入全部需要应用数据,完善中间层数据模型,同时保证数据的准确性,重点投入数
据资产(离线/实时)建设。

2.3. 治理期
 在业务经历过快速扩张期后,就会步入稳增长的阶段的阶段,这个时候,不太需要大规模接入数据制作数据资产,重
点在于对原有数据仓库进行治理降低数据使用成本(元数据维护、核心数据模型公共沉淀等)、降低计算/存储资源消耗、
稳定任务产出、保障数据安全。


2.4. 缓慢发展期
 在经历治理期后,对于业务方更需要提效,这里提效指查数/用数的提效,能够让数仓内部和业务方更快定位指标、
数据模型、用户数据等,实现自助查询,同时还可以开发一些效能小工具(问题代码自动识别、未被使用的数据模型/字
段、智能报警监控等)实现自动化。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值