大数据数仓设计过程

最新推荐文章于 2024-07-29 10:06:22 发布

纵横AI大世界

最新推荐文章于 2024-07-29 10:06:22 发布

阅读量1k

点赞数

文章标签：数据仓库大数据分布式编程语言 hadoop

本文链接：https://blog.csdn.net/naisongwen/article/details/108787030

版权

本文详细论述在大数据环境下的数据仓库设计理论，然后通过燃气行业一个小案例描述数仓的架构设计、ETL过程、模型设计方法和物理实施过程。欢迎订阅！

数据仓库概念

数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程。在数据仓库里，每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据。

数据仓库发展阶段

数据仓库发展大致以Google发表“三驾马车”【GFS（解决大数据存储问题）、MapReduce（解决大数据计算问题）、BigTable（解决大数据查询问题）】论文从而出现对标产品Hadoop、Hive、HBase为分水岭。在这之前，数据仓库基于单机的关系型数据库构建，数据处理面向OLTP数据，计算能力较弱。此时的数据仓库处于数据库时代，主要解决的问题是数据仓库的灵活性和性能之间的问题，这个时代又细分为几个阶段：

阶段1：错综复杂的决策支持系统没有统一的数据源容易导致重复建设、数据不一致问题；

阶段2：规范化和集中式的数据仓库存储系统无法解决灵活的查询和分析需求，同时无法应对海量信息的性能要求；

阶段3：引入了数据集市的数据仓库体系结构解决了数据仓库的灵活性和性能之间的矛盾，数据集市存储为特定用户需求而预先计算好的数据，从而满足用户对性能的需求。

在这之后进入大数据时代，数据处理除了OLTP结构化数据之外，还有更多的非结构（如文件、图片等）、半结构化（如json、xml等格式）数据，数据处理能力也大大增强。此时的数据仓库实际上已经进入数据湖时代，此时数仓基于数据库时代较成熟的理论和实践（分层建模），主要解决的问题是集群的架构和部署问题，根据集群架构不同又分为几个阶段：

1. 阶段一：自建开源Hadoop数据湖架构，原始数据统一存放在HDFS系统上，引擎以Hadoop和Spark开源生态为主，存储和计算一体。缺点是需要企业自己运维和管理整套集群，成本高且集群稳定性差。

2. 阶段二：云上托管Hadoop数据湖架构（即EMR开源数据湖），底层物理服务器和开源软件版本由云厂商提供和管理，数据仍统一存放在HDFS系统上，引擎以Hadoop和Spark开源生态为主。这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性，使企业的整体运维成本有所下降，但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理，即应用层的运维工作。同时因为存储和计算耦合在一起，稳定性不是最优，两种资源无法独立扩展，使用成本也不是最优。

3. 阶段三：云上数据湖架构，即云上纯托管的存储系统（如对象存储系统S3，OSS）逐步取代HDFS&#