企业级数据治理实践(一)

1.概况

在互联网经历前半场快速发展的背景下, 数据部门为了快速迭代实现需求,往往不在意成本和模型的规范化,再加上维度建模自下而上的建模思想本身就很容易产生大量的烟囱式开发,这就导致出现很多的模型不合理、存储计算成本过高的情况。

来到互联网下半场,精细化数据管理成为了行业现状,大多企业在没有增量资源增加的背景下,还需要保留原有的数据能力,这时候数据治理就迫在眉睫。

2.为什么要做数据治理

数据开发过程很长,从数据源、数据采集、数据计算、数据存储、数据应用全都是依靠数据开发的个人能力来决定是否合理,这种情况下,在多人协助的情况下很难保证数据质量和数仓的规范性,这会直接导致数据的无限扩张和资源的浪费。

图片

3.什么是数据治理?

数据治理就是在保证设计合理的情况下提质降本,提质就是提高数据质量,降本就是降低成本,成本包含计算和存储。

数据质量直接影响着看数据的价值,并且直接影响数据分析的结果以及我们以此作出的决策质量。我们常说,用数据说话,用数据支撑决策管理,但是低质量的数据、甚至存在错误的数据,必然会说假话!提高数据质量主要从下面五点出发:准确性、及时性、完整性、真实性、一致性、有效性。

 

互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础建设上面投入的成本占比非常高,而且随着数据量的增加,成本也将继续攀升,除了保障数据质量以外,我们还需要尽可能的降低我们的资源成本。

图片

4.数据治理流程

基本流程:发现问题>评估影响>质量分析>质量优化>质量控制

可参考六西格玛方法论

5.实践

治理背景

纵观大数据发展逐渐由上半场建设阶段向下半场精细化数据管理迈进。由于前期的大规模建设,产生了一些计算和存储的浪费,同时每天的数据增量也在不断增加着这部分的成本,在平台投入不变的情况下,数据治理迫在眉睫。

治理目标

日均计算消耗维持在***以内;存储消耗维持在***以内。

治理挑战

目标难:需要治理的资源和存储较大;

历史包袱重:数据团队已经历经了多年的数据建设、人员迭代、历史包袱已经非常重,且因为数据应用的重要性,治理策略落地举步维艰;

治理优先级低:因人员迭代快、日常工作繁重,表owner缺乏治理动力,成本治理占日常工作的比例低,需要提升人员的成本意识,同时提供工具能够方便准确快速的做成本治理;

治理可持续:治理策略需要持续稳定执行,避免报复性反弹,需要结合运营和工具手段落地。

治理策略

主要策略方向:

A、项目机制,治理项目立项,日常执行计划安排;

B、通用治理:抽象出通用的治理项,日常推动治理;

C、TOP治理:TOPN节点及存储抽取出来,定期盯人跟进治理,为结果负责;

D、治理专项:数据应用治理专项,比如流量治理、营销活动分析重构等。

E、方案沉淀:沉淀优化治理的方案,普及优化知识,做到人人会优化;

治理成果

A、降低了存储和计算成本。

B、沉淀治理领域topN治理&专题治理数据看板和接口人协同SOP,有效提高存储治理人效和治理热情

另外,楼主是阿里的数据研发同学,有需要内推的伙伴可以加我微信:xgz62811,欢迎来撩~

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值