读《大数据之路-阿里巴巴大数据实践》数据模型篇
七 建模综述
OLTP 面向数据 随机读写 3NF
OLAP 批量读写 不关注一致性更关心数据整合
ER模型–衍生出dataVault
维度模型 选择过程-选择粒度 识别维表和选择事实
Anchor模型
分布式计算平台MaxCompute
数据管理体系Onedata
八 阿里巴巴数据整合及管理体系
数据管理体系Onedata
规范定义:
名词术语,指标体系…
模型设计:
操作数据层: 操作系统-数据仓库 无处理的数据-同步,清洗,保存历史
公共维度数据层:明细数据/汇总数据
应用数据层:个性化的统计指标
原则:搞内聚低耦合
核心扩展分离
刚刚处理逻辑下沉及单一
成本与性能抗衡
数据可回滚
一致性
需求调研-架构设计-创建总线矩阵
九 维度设计
度量是事实,而维度是环境
1选择维度-确定主维度-确定相关维度的表-确定维度属性
要生成尽可能多的属性和文字描述
需要区分数值型属性和事实:!!
比如商品价格:用来统计商品的平均价格的是事实,是度量。但是用于商品数量是则作为维度使用
垂直拆分 水平拆分