GBase南大通用 GBase 8a 搭建数仓(一):数仓学习笔记
企业信息工厂(Corporate Information Factory,CIF)架构:
GBase南大通用 GBase 8a产品在CIF架构中可以用来构建DW数据仓库层和DM数据集市层
CIF架构中DW数据仓库层是企业信息工厂的核心部件,用来保存整个企业的数据,为整个企业各个部门的运行提供决策支持手段。数据集市是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。可以说数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库,因此也称之为部门级数据仓库。
数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
ODS(操作数据存储)是建立在数据准备区和数据仓库之间的一个部件,用来满足企业集成的,综合的操作型处理需要,ODS层也常常被放在数据仓库层中。
CIF的核心部件数据仓库,业界较为通行的设计是分层,源数据通过一层一层的梳理和重组,最终形成贴近业务、易于快速查询分析的规范化数据。就像我们从森林中伐来的原木,经过层层加工,成为板材,供工匠们挑选做成需要的成品。
数仓内部分层(一般标准是四层):
ODS原始数据层、DWD数据明细层、DWS数据汇总层、ADS数据应用层。
数仓层次结构还可以继续进行细分,需根据具体的业务需求和公司场景自己去定义。
数仓系统架构图
DIM是数据维表层,是DWD、DWS、ADS层统一通用的,即DWD、DWS、ADS层都使用同一套DIM维度表。在这个图中ODS就搭建在了数仓中。
CIF架构图和数仓架构图中各模块、各层级之间的数据流动是ETL(ExtractionTransformation Loading)支撑完成。CIF和数仓架构图中的箭头代表了ETL和数据流向。ETL负责将分散的、异构数据源中的数据抽取到ODS层后进行清洗、转换、集成,最后加载到数据仓库以及从数据仓库推送到数据集市中。