阿里-大数据之路总结
一、数据测试:
1.典型测试方法:功能测试
2.目标:验证目标数据是否符合预期
3.方法:
- 新增业务需求:要对目标数据和源数据进行对比,包括数据量、主键、字段空值、字段枚举值、复杂 逻辑(如 UDF、多路分支)等的测试。
- 数据迁移、重构、修改:为保证数据质量需要对修改前后的数 据进行对比,包括数据量差异、宇段值差异对比等
二、典型的数据仓库建模万法论
-
ER 模型
代表:Teradata 公司基于金融业务发布 的 FS-LDM (Financial Services Logical Data Model ),它通过对金融业务的高度抽象和总结,将金融业务划分为 10 大主题 -
维度模型
设计步骤:
第一. 选择需要分析的业务
第二. 选择粒度
第三. 识别维度
第四. 选择事实
3.Data Vault 模型
4.Anchor 模型
三、缓慢变化维
1.定义
随时间发生变化的维度
2.处理方式
2.1.直接覆盖原值
2.2添加属性列
2.3添加维度行,通过自然键关联
四、模型设计基本原则
1.高内聚低耦合
2.核心模型与扩展模型分离
3.公共处理逻辑下沉单一
五、业界常用模型实施过程
-
Kimball 模型实施过程
需求分析、高层模型、详细模型和模型审查 -
Inmon 模型实施过程
六、数据仓库之表设计
1.宽表:
业务主题相关的指标、维度、属性,不符合三范式的模型设计规范,优点:查询性能高 缺点:数据冗余
2.窄表:
严格按照数据库设计三范式
3.维度表
设计流程:
3.1.选择实体
3.2.确定主维表
3.3.确定辅维表
3.4.识别维度属性
4.事实表
设计流程:
4.1选择业务过程及确定事实表类型
4.2声明粒度
4.3 确定维度
4.4确定事实
4.5冗余维度
七、元数据
1.定义
数据的数据
注意:ETL映射文档起到的就是元数据作用
八、数据质量
数据质量保障原则:
1.完整性
2.准确性
3.一致性
4.及时性