一、知识点概述
1、数仓分层概念ods:operation data store原始数据层,
数据保持原貌不做处理
dwd:data warehouse detail明细数据层
结构和粒度与原始表保持一致,对ods层数据进行清洗(去除空值,脏数据)
dws:data warehouse service数据服务层
数据轻度汇总
ads:application data store 数据应用层
为各种统计报表提供数据
2、数仓为什么要分层把复杂问题简单化:把一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单,并且方便定位问题
减少重复开发:通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性
隔离原始数据:使真实数据与统计数据解耦开
3、数据集市与数据仓库概念
数据集市则是一种微型的数据仓库,通常有更少的数据,更少的主题区域,更少的历史数据,部门级的,一般只能为某个局部范围内的管理人员服务。
数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段
4、表的分类实体表:一般是指现实存在的业务对象
维度表:一般是指对应一些业务状态,也可称为码表
事务型事实表:一般指随着业务发生不断产生数据,特点是一旦发生不会再变化
周期型事实表:一般指随着业务发生不断产生变化(更新,新增)的数据,如订单
5、同步策略全量表:存储完整的