01概述
数据技术、数据资产、数据应用、数据运营是构建数据生产力模型的核心要素。
数据技术:侧重于基于大数据基础平台、数据中台、湖仓一体、实时计算等技术,贯彻DataOps理念实现大数据集成开发
数据资产:通过数据技术沉淀数据资产,将企业数据指标、数据标准、数据模型、数据质量、数据地图规范化条理化呈现。
数据应用:数据资产化后,需要实现资产服务化。将企业沉淀的资产服务于智能决策、智能风控、监管报送、客户画像、数据可视化。
数据运营:数据价值运营是数据资产管理的最后一环也是最核心一环。需要将企业数据运营沉淀到知识库,形成数据文化,进行人才培养,实现运行平台
02DataOps浅谈
DataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据开发效率更高、交付更加频繁,交付质量更有保障。
践行DataOps能有效避免以下问题:
- 任务依赖缺失:任务依赖人肉配置,漏配,错配频发,导致下游数据出错。
- 缺少自动化测试:16%的任务未运行过就提交上线,最终导致生产事故发生。
- 缺少发布管控:任务发布上线更改随意,未经审核和CodeReview.
DataOps持续集成包含内容:
- 编码:数据开发IDE、版本管理、组件模版
- 编排:依赖调度、任务依赖推荐、参数组、资源组
- 测试:数据比对、数据沙箱、自动化回归、数据形态探查
DataOps持续部署包含内容: