Data Lakehouse

傲雪凌霜，松柏长青

于 2024-09-18 21:56:19 发布

阅读量370

点赞数 7

分类专栏：大数据后端文章标签：大数据

本文链接：https://blog.csdn.net/Casual_Lei/article/details/142344856

版权

100 篇文章 1 订阅

订阅专栏

32 篇文章 0 订阅

订阅专栏

Data Lakehouse 是一种结合了数据湖 (Data Lake) 和数据仓库 (Data Warehouse) 优点的新型数据架构，旨在解决传统数据湖和数据仓库之间的缺陷。它可以用于存储、管理和分析大规模数据，同时支持结构化、半结构化和非结构化数据的统一处理。

数据湖：用于存储大量原始数据，支持所有类型的数据（如结构化、半结构化、非结构化），通常存储在分布式存储系统（如Hadoop、S3等）中。数据湖通常用于大数据分析和机器学习，但由于数据未经处理，分析时需要进行大量数据清洗和转换工作。
数据仓库：用于存储经过结构化处理的数据，主要适合事务型查询、BI 报告等业务需求。虽然性能高，但不支持处理非结构化数据。

存储层：通常采用分布式存储系统（如HDFS、Amazon S3、Azure Blob Storage），以支持大规模数据的持久化存储。
数据格式：使用开源的列式存储格式（如Parquet、ORC）来提高查询性能，并且可以通过 Delta Lake、Apache Hudi 等技术支持事务和时间旅行等功能。
计算引擎：常见的计算引擎包括 Apache Spark、Presto、Trino 等，可以高效处理数据并支持 SQL 查询和机器学习等多种应用。

Data Lakehouse 的核心优势在于打破了数据仓库和数据湖的壁垒，让企业可以在单一架构下实现灵活的大规模数据存储和高效的分析能力。