湖仓一体 Lakehouse
文章平均质量分 95
该专栏介绍说明现代流行的大数据架构湖仓一体架构,对其特性和架构设计进行总结,并且说明如何构建湖仓一体的现代大数据平台。
一切如来心秘密
目前从事大数据领域后台开发,完善数据平台相关产品生态,包括数据开发平台,数据质量,元数据系统,离线调度系统,标签系统,统一权限管理系统等产品的设计与研发工作。
学有涯而知无涯,在技术上保持谦卑,在生活中一路高歌,记录点滴,不忘初心,方得始终~
展开
-
元数据管理和数据目录对于现代数据平台的重要性——Lakehouse架构(四)
Lakehouse 架构中的存储层负责存储整个平台的数据,要查询存储的这些数据,我们需要一个数据目录来帮助用户查询、检索和发现这些数据。本文将对元数据、元存储和数据目录等重要概念进行说明。原创 2024-04-19 09:18:17 · 1199 阅读 · 1 评论 -
湖仓一体(Lakehouse)架构的核心组件之存储层——Lakehouse 架构(三)
存储层是任何数据平台的核心,在基于lakehouse架构的平台中,它对于高效持久化各类数据、提高查询引擎的性能发挥着重要作用。Lakehouse存储层由云存储、文件格式和表格式组成。本文将说明与 Lakehouse 存储相关的基本概念、行式存储和列式存储之间的区别,以及存储格式是如何与性能密切相关的。然后,将深入探讨用于数据分析场景的存储格式、使用每种格式的好处以及构建数据平台时应考虑的关键功能。了解了上边的概念后将讨论湖仓一体中的开放表格式,包括其功能和优点,以及在使用的时候需要注意的地方。原创 2024-04-18 17:57:22 · 1671 阅读 · 0 评论 -
传统大数据架构与现代数据平台的期望——Lakehouse 架构(二)
本文概述了传统数据架构:数据仓库和数据湖,以及现代数据平台的期望,和新兴数据架构 Lakehouse 的详细介绍说明,架构没有好坏只有合适与否,但是个人认为湖仓一体架构 Lakehouse 将在未来数据平台的架构设计中占有强大的竞争力。本文概述了传统数据架构:数据仓库和数据湖,以及现代数据平台的期望,和超新星数据架构 Lakehouse 的简单优点介绍,上云是大势所趋,笔者认为在未来大数据架构会越来越简单,可以让各行各业都能感受到数据带来的价值,以及大数据带来的魅力。原创 2024-04-18 06:00:00 · 2312 阅读 · 0 评论 -
新型大数据架构之湖仓一体(Lakehouse)架构特性说明——Lakehouse 架构(一)
数据仓库和数据湖一直是实现数据平台最流行的架构,然而,过去几年,社区一直在努力利用不同的数据架构方法来实现数据平台。本文就是对当下非常流行的湖仓一体架构的特性说明。原创 2024-04-17 18:45:46 · 3512 阅读 · 0 评论 -
Apache Paimon 流式湖仓介绍说明
Apache Flink 自诞生以来经历了重大演变,如今,它不仅充当批处理和流数据处理的统一引擎,而且为迈向新时代铺平了道路:流式数据湖。Apache Flink 的概念是动态表,与数据库中的物化视图类似,但是,动态表不能直接查询,因此社区提出使用中间表进行查询,就演变出了 Paimon。原创 2024-04-15 23:22:57 · 1834 阅读 · 7 评论 -
数据湖技术选型——Flink+Paimon 方向
本文结合 Flink 对几大数据湖选型进行了对比,最终选择使用 Flink + Paimon 技术栈。原创 2024-04-15 23:20:32 · 1903 阅读 · 0 评论