大数据开发数据治理方向

模型合规(包括了元数据治理,原来只到了元数据层次):1.数据标准重制定及修复,包括对原来数据域重构,表字段命名体系重构,并对原来模型按照新标准合规改造 2.元数据补充 owner、使用说明、字段中文名具体内容、颗粒度声明、主键声明等补充保障下游及内部使用时候清晰 3.制度建设:完善模型评审制度、代码提交强审核,保障内容合规后上线 4.分层合理性,治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表,建议优化 5.数据链路合理性:减少因内容不足产出烟囱模型,从而相互依赖加长链路情况

数据质量合规:1.流程化,任务上线/变更流程,指标变更流程 2.dqc管控:对原4大基础dqc进行补充以及核心业务模型dqc补充,并对原无效dqc下线,对常触发dqc进行调整(例如表行数波动,可通过算法对近7天数据量监测) 3.sla及基线治理(这里也可以放到人员运维roi治理中):上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份快恢能力临时修复数据 4.上游问题数据治理:数据质量长期监测体系

数据安全合规:1.角色权限管控,对不同使用/开发角色提供不同使用权限,根据报表、看板的权限等级,在同一个图表中限制不同的用户能够看到的数据也不一样(常用于报表各模块内容展示) 2.数据脱敏,通过脱敏防止数据泄漏 3.表/字段分级:对每个表及字段进行打标,保障每张表都有数据安全管控 4.数据权限使用 表/字段走审批流程 并设置数据使用申请时卡点负责人/组 5.其他 数据下载管控(一般来说最多下载1000行/次),离职数据风险管控等等

存储资源治理:1.设置统一表生命周期,并对当前表按照新标准裁剪,对未分区表重制定分区 2.长期未引用/被使用/临时的表下线 3.压缩格式/存储格式优化 4.根据业务对表存储重划分:对较大数据量表可以采取全量转增量操作、拉链表操作

计算资源治理:1.数据倾斜任务治理(后面我会细讲治理方法 这里跳过)2.消耗大core/内存任务治理 3.无效监控项、重复开发情况占用计算资源、数据价值低的模型占用计算资源及时下线 4.梳理数据链路并对任务调度治理 5.规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行 6.小文件治理 7.其他 例如hive spark2 切换spark3采用aqe特性 采用z-order+spark排序算法解决join时读取效果提升

数据价值治理 (整体来说是提升模型复用性):1.烟囱数据模型及对应任务、模型粒度重复及时下线 2.ads指标下沉到dws 3.建立模型价值度指标,持续下线低价值模型 4.下线ads层对应业务不再使用的场景模型

人力成本治理:1.指导培训组员技术侧/业务侧能力能够独挡一面,并完善文档沉淀帮助后续新人培训开展 2.让熟悉不同数据域的组员安排在合理的数据域范围,同时做backup 3.建立相应需求开发流程机制,统计人员产出效率,方便针对性安排后续开发内容4.为当前需求及项目难度打分,帮助大家更好意识到项目能否落地、以及产出时间,同时衡量每人产出roi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值