什么是Hudi?
使用Hudi管理数据和基本概念理解,不处理和使用。仅是管理数据。发稿时,当前最新版本是V0.10.0
为什么学习Apache Hudi
Hudi是一个数据湖的框架。通过目录和表(分区,列式存储)进行管理。诞生于Uber并开源。
数据仓库
Data Warehouse 简称数仓、DW,是一个用于存储、分析、报告的数据系统。
数据仓库的目的是构建面向分析的集成化数据环境,分析结果是为企业提供决策支持(Decision Support)。
数据仓库的特点是本身产生数据,也不最终消费数据。
每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上分为三层:
操作型数据层(ODS)
数据仓库(DW)