什么是数仓

什么是数据仓库?

数据仓库全称为Data Warehouse,简称DW。它是面向主题的,集成的,相对稳定的,反映历史变化的数据存储集合,用于支撑企业的分析报告与决策。

数仓的输入与输出

 

数仓的几个特点是什么?

  • 主题性 

将不同数据源的数据在一个较高抽象层次上做整合,数据围绕某一主题进行汇总,如电商主题有:订单、流量、商品、用户等 。

  • 集成性

数仓中的数据来源于不同数据源的集成(如:tob业务系统数据源,toc业务系统数据源,erp业务系统数据源),且这些数据源的存储方式可能不同(如:mysql、orcale、hive等),因此需要做etl操作整合不同的数据源。

  • 稳定性

数仓中的数据保存的是一些列历史快照数据,不允许数据被修改,使用人员只能查询或分析数据。

  • 时变性

数仓会定期接受新的集成数据,反映最新的数据变化。

什么是OLAP?  什么是OLTP?

OLTP:on-line transaction processing,联机事务处理,需要考虑并发与事务

OLAP:on-line Analytical processing,联机分析处理,主要是面向分析,会产生大量的查询,一般很少涉及增删改

什么是拉链表?

在某些情况下,我们需要保留历史状态,使用拉链表可以在 保留历史状态的同时节省空间

什么是ETL?

  • 数据的抽取

数据的抽取,就是把数据从数据源读出来

  • 数据的转换

数据类型转换与脏数据清洗

  • 数据的加载

处理后的数据加载到目标处,如数据仓库

数仓ETL流程

 

  • 8
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值