阿里-大数据之路总结

阿里-大数据之路总结

一、数据测试:

1.典型测试方法:功能测试

2.目标:验证目标数据是否符合预期

3.方法:

  1. 新增业务需求:要对目标数据和源数据进行对比,包括数据量、主键、字段空值、字段枚举值、复杂 逻辑(如 UDF、多路分支)等的测试。
  2. 数据迁移、重构、修改:为保证数据质量需要对修改前后的数 据进行对比,包括数据量差异、宇段值差异对比等

二、典型的数据仓库建模万法论

  1. ER 模型
    代表:Teradata 公司基于金融业务发布 的 FS-LDM (Financial Services Logical Data Model ),它通过对金融业务的高度抽象和总结,将金融业务划分为 10 大主题

  2. 维度模型
    设计步骤:
    第一. 选择需要分析的业务
    第二. 选择粒度
    第三. 识别维度
    第四. 选择事实

3.Data Vault 模型

4.Anchor 模型

三、缓慢变化维

1.定义
随时间发生变化的维度

2.处理方式
2.1.直接覆盖原值
2.2添加属性列
2.3添加维度行,通过自然键关联

四、模型设计基本原则

1.高内聚低耦合
2.核心模型与扩展模型分离
3.公共处理逻辑下沉单一

五、业界常用模型实施过程

  1. Kimball 模型实施过程
    需求分析、高层模型、详细模型和模型审查

  2. Inmon 模型实施过程

六、数据仓库之表设计

1.宽表:
业务主题相关的指标、维度、属性,不符合三范式的模型设计规范,优点:查询性能高 缺点:数据冗余

2.窄表:
严格按照数据库设计三范式

3.维度表
设计流程:
3.1.选择实体
3.2.确定主维表
3.3.确定辅维表
3.4.识别维度属性

4.事实表
设计流程:
4.1选择业务过程及确定事实表类型
4.2声明粒度
4.3 确定维度
4.4确定事实
4.5冗余维度

七、元数据

1.定义
数据的数据

注意:ETL映射文档起到的就是元数据作用

八、数据质量

数据质量保障原则:
1.完整性
2.准确性
3.一致性
4.及时性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值