B. 阿里巴巴 数据中台 — OneData体系方法论
第一个关键点:数据仓库规划和数据规范定义
- 基于业务但超越和脱离业务需求限制的抽象:例子
- 业务:电商
- 数据域:交易
- 业务过程:加入购物车
- 业务过程:下单
- 业务过程:支付
- 业务过程:确认收货
- 业务过程:申请退款
- 维度:订单
- 维度:买家
- 维度:卖家
- 数据域:会员
- 维度:会员
- 数据域:商品
- 维度:商品
- 数据域:浏览
- 数据域:搜索
- 数据域:广告
- 数据域:公共
- 维度:BU维度
- 数据域:交易
- 业务:金融
- 业务:云业务
- 业务:电商
- 基于以上抽象出的业务过程和维度,进一步定义
- 定义原子指标
- 定义业务限定
- 定义计算周期
- 定义计算粒度
- 基于原子指标、计算周期、业务限定、计算粒度,可以结构化定义出派生指标,并以集成原子指标的数据类型、算法简单说:结构化指标的计算参数
第二个关键点:数据模型设计
- 思路
- 数据模型设计建立在数据规范定义的基础上,这就从业务应用或者需求来源控制了数据模型设计的重要输入源头
- 对数据模型严格分层,在统一的数据公共层的同时允许数据应用层百花齐放
- 从业务和技术双规视角出发,严格要求遵守能达成数据模型设计“高内聚、低耦合”的流向要求
- 公共逻辑下沉
- 核心模型与扩展模型分离
- 成本与性能平衡
- 一致性
- 命名清晰可理解
- 数据可回滚
- 具体落地
- 第一步:统一ODS数据基础层,从职责到团队组成,再到权限管控,全部实现统一,以确保数据在业务端产生后进行数据仓库时的落地唯一性
- 第二步:基于业务应用或者需求来源端抽象数据域治理,特别关注核心业务模型,通用DWD明细数据中间层预JOIN处理,DWS汇总数据中间层沉淀常用统计维度和复用性高的指标,再结合数据技术本身的热度分析和数据应用预估,丰富和完善数据中间层数据建设
- 第三步:在建设ADS数据应用层时,遵循百花齐放、快速响应的原则
- 优先从数据中间层向上整合,以满足业务的应用或需求
- 如果当前数据中间层不能满足,则快速完善数据中间层
- 不适合沉淀到数据中间层的、非常个性化和定制化的服务,才会在数据应用层新加工生产