数仓概念

数仓
事实表:
指向各个维度的外键,和一些相应的测量数据,事实表中数据很多,维表记录这一维的属性

维度表
每一个维度表利用维度关键字通过事实表中的外键 约束于事实表中的某一行,实现与事实表的关联, 这就要求事实表中的外键不能为空,这与一般数据库中外键允许为空是不同的。

雪花模型与星型模型不同地方:
雪花模型是对星形模型的扩展,每一个维 度都可以向外连接多个详细类别表。
在这种模式中,维度表除了具有星形模型 中维度表的功能外,还连接对事实表进行
详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的。

粒度
是指保存数据的细化或综合程度的级别
根据业务处理流程来确定粒度,粒度影响数据仓库中的数据量大小

粒度可以分为两种形式:
1.按时间段综合数据的粒度
2.按采样率高低划分的样本数据库
建模过程
inmon架构和kimball架构
1.外部数据,业务数据库,文档组成操作型数据库
2.抽取数据到数据过滤区,对数据进行处理清洗,去重重构;
3.经过处理后的数据装载到数据仓库
4.数据仓库会装载到数据集市中(inmon架构的数据仓库是三范式企业级的数据仓库,kimball的数据库是多维企业级的数据仓库) 这一步kimball没有
5.最终提供给最总用户接口(数据挖掘,可视化等)

多维数据模型及建模过程
选择业务流程: 确认哪些业务处理流程是数据仓库应该覆盖的,是维度的基础
声明粒度: 确定事实中表示的是什么
确认维度: 说明了事实表的数据是从哪里采集来的,是实施表的基础
确认事实: 识别数字化的度量,构成事实表的记录

Data Vault模型及建模过程
综合了第三范式(3NF)和星型模型优点的建模方法,设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,是一种专为企业级数据仓库量身定制的建模方式。
1.设计中心表: 企业级数据仓库要涵盖的业务范围,将各个业务主体中抽象出能够唯一标识实体的主键,该主键不变化 例:客户,产品
2.设计链接表: 体现中心表之间的业务联系
3.设计附属表: 各个业务实体和业务之间关联的详细信息 例:客户住址,产品价格
4.设计必要的PIT表 (point-In-Time) 为了访问数据方便
建立Data Vault模型时应该参照如下的原则:
(1)关于中心表的原则
中心表的主键不能够直接“伸入”到其他中心表里面。就是说,不存在父子关系的中心表。各个中心表之

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值