数据仓库 、数据中心相关技术知识和生态相关了解
1、数据仓库 数仓
数仓的分层
1、ODS 层:Operation Data Store 原始数据层 加载原始数据不做处理
2、DWD 层:Data Warehouse Detail 明细数据层 对 ODS 层数据进行清洗,去除空值、脏数据、超过极限范围的数据,对敏感数据进行脱敏
3、DWS 层:Data Warehouse Service 服务数据层 以 DWD 数据为基础,按天进行轻度汇总
4、DWT 层:Data Warehouse Topic 数据主题层 以 DWT 数据为基础,按主题进行汇总
5、ADS 层:Application Data Store 数据应用层 为各种报表提供数据
分层的目的
1、简化复杂任务,方便定位问题
2、减少重复开发
3、隔离原始数据
数据集市(Data Market)
和数据仓库
1、数据集市是数据仓库的 Mini 版本,主要服务于部门
2、数据仓库是企业级的,为企业的各个部门提供决策支持手段
一些数仓处理相关的技术框架
1、Azkaban 一套简单的任务调度服务