数据仓库总结

一、数据仓库的理解:

数据仓库简称数仓,是一个用于存储、分析、报告的数据系统。数据仓库是一种对数据的管理与使用的方法,包含数据建模、Extract-Transform-Load(ETL)(抽取、转换、加载)、以及任务调度等在内的一系列流程体系。
数据建模:
Extract-Transform-Load
extract:数据仓库本身不生产任何数据,其数据是从不同系统抽取到数据仓库中。
transform:数据转换(包括一系列对数据的操作,将数据转换成自己想要的样子)
load:将数据加载到目的端,加载到该数据仓库存储的数据库中
任务调度:
主要对ETL进行 执行顺序、执行时间的一个设置

二、数仓的目的(作用):

构建面向分析的集成化数据环境,分析结果为企业提供决策支持,通过数据支持决策

三、数据分层:

常见数据分层:一般分为四层,五个模块,数据贴源层(ods)、数据清洗层(dwd)、数据汇总层(dws)、数据展现层(ads)、公共维度层(dim)
数据贴源层:离线或者准实时数据的接入到贴源层
数据清洗层:对贴源层的数据进行数据清理工作
数据汇总层:对清洗层的数据进行一定汇总,通常会在这一层得到宽表(业务汇总表)
数据展现层:主要汇总梳理出各个明细业务所要展现的数据和指标
公共维度层:这一层的数据主要就是一些一致性维度,例如组织架构、映射表等。

四、数据分层的原因:

1.清晰的数据逻辑结构
每一层都有自己的职责,逻辑结构清晰,便于对数据的理解与管理
2.数据血缘的追踪,便于定位问题
层级明确,在数据出现问题的时候能够通过数据表的血缘关系,快速定位到问题所在,便于解决问题
3.通过一些公共的数据,能够极大的减少开发

  • 10
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值