大数据面试题 —— 数据仓库

数据仓库是什么


数据仓库是一个面向主题的集成的相对稳定的反映历史变化的数据集合,主要用于存储历史数据,然后通过分析整理进而提供数据支持和辅助决策。

数据仓库和数据库的区别


数据库(OLTP),数据仓库(OLAP)。

(1)数据库中主要存放的是一些在线的数据,数据仓库中主要存放的是历史数据,并且存放的数据要比数据库多;

(2)数据库主要用于业务处理(比如交易系统),数据仓库主要用于数据分析;

(3)数据库的设计就是要避免冗余,而数据仓库通常会专门引入冗余,减少后面进行分析时大量的 join 操作。

在数据仓库中,冗余指的是相同的数据在多个表中重复存储。比如预聚合数据,为了提高查询性能,数据仓库可能会事先计算并存储聚合数据。

数据仓库和数据集市


数据仓库其实指的集团数据中心:主要是将公司中所有的数据全部都聚集在一起进行相关的处理操作 (ODS层)

数据的集市(小型数据仓库):在数据仓库基础之上, 基于主题对数据进行抽取处理分析工作, 形成最终分析的结果。

一个数据仓库下, 可以有多个数据集市。

数据仓库和数据集市的区别

  • 范围的区别
    • 数据仓库是针对企业整体分析数据的集合。
    • 数据集市是针对部门级别分析的数据集合。
  • 数据粒度不同
    • 数据仓库通常包括粒度较细的数据明细。
    • 数据集市则会在数据仓库的基础上进行数据聚合,这些聚合后的数据就会直接用于部门业务分析。

数据湖产品


数据湖与数据仓库的区别


为什么要对数据仓库分层


在这里插入图片描述

补充说一下:我觉得数据仓库就是一种以空间换取时间的架构!

数仓分层,以及每一层的作用


在这里插入图片描述

(1)ODS 原始数据层:存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。

DIM层,维度层,保存维度数据,主要是对业务事实的描述信息,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值