DataLake
文章平均质量分 89
数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台,根据业务场景不同,可以选择相应的计算引擎对数据湖中存储的数据进行数据处理与分析,从而打破孤岛,挖掘业务价值
@SmartSi
Stay Hungry, Stay Foolish
展开
-
数据湖学习笔记
基于 Lakehouse 架构实现湖内建仓实践经验 Lakehouse架构指南 腾讯 数据湖知识体系解析 一个理想的数据湖应具备哪些功能? HDFS廉颇老矣?基于对象存储的数据湖构建新思路 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体 网易严选数据湖建设实践 爱奇艺数据湖实战 字节跳动基于数据湖技术的近实时场景实践 数据湖在快手的生产实践 Apache Hudi 典型应用场景知多少? Apache Hudi 在腾讯的落地与应用 基于 Apache Hudi 构建数据原创 2023-08-28 08:02:12 · 107 阅读 · 0 评论 -
基于 Lakehouse 架构实现湖内建仓实践经验
第一个阶段是数据库不管是从业务的角度还是从技术栈角度,大家对数据库都是最熟的。第二阶段是数据仓库当数据库的整体能力达不到我们的存储要求之后,就出现了数据仓库。数据仓库定位也是偏OLAP。它把数据的存储的能力通过分布式的方式去加大,计算能力也相应增加了上去。在有些特性和用法上是非常相似的。第三阶段是数据湖数据湖在存储规模和计算能力上进一步加大,整个集群规模可以上万台,整体的能力会有更大的提升,同时扩容更加平滑。另外它增加了很多数据库和数仓不具备的能力,比如实时计算、机器学习。转载 2023-08-27 12:59:43 · 107 阅读 · 0 评论 -
基于 Apache Hudi 构建数据湖的典型应用场景介绍
传统大数据由于不支持事务等痛点问题,造成T+1时延,虽然能够基于Flink流式计算实现少量数据在简单场景的秒级数据处理能力,但依然缺乏海量复杂场景的实时更新、事务支持能力。现在基于华为云FusionInsight MRS的Hudi可以构建分钟级数据处理方案,实现较大数据量的复杂计算实时处理能力,大大提升数据时效性,让数据价值近在眼前。转载 2023-08-25 07:25:30 · 412 阅读 · 0 评论 -
Apache Hudi 在腾讯的落地与应用
如上图所示,以最简单的覆盖逻辑为例,当读到 BaseFile 中的主键是 key1 的 Record 时,发现 key1 在 Map 中已经存在并且对应的 Record 有 BCD 三列的值,则更新 BaseFile 中的 BCD 列,得到新的 Record(key1,b0_new,c0_new,d0_new,e0),注意 E 列没有被更新,所以保持原来的值 e0。同时,这套方案的扩展性也更加好。在传统的Hive数仓中想保证实时是非常困难的,尤其是文件更新,湖表实时写入更新,基本不可能实现。转载 2023-08-23 08:32:22 · 267 阅读 · 0 评论 -
Apache Hudi 典型应用场景知多少?
此外,Hudi 没有外部依赖项(例如专用于实时分析的专用HBase群集),因此可以在不增加运营成本的情况下,对更实时的数据进行更快的分析。在这种情况下,保证正确性的唯一方法是每小时重复处理最后几个小时的数据,这会严重损害整个生态系统的效率。Hudi可以很好的解决上述问题,其通过记录粒度(而非文件夹或分区)来消费上游Hudi表 HU中的新数据,下游的Hudi表 HD应用处理逻辑并更新/协调延迟数据,这里 HU和 HD可以以更频繁的时间(例如15分钟)连续进行调度,并在 HD上提供30分钟的端到端延迟。转载 2023-08-23 07:36:06 · 151 阅读 · 0 评论 -
数据湖在快手的生产实践
本文整理自快手数据架构研发专家张静在WOT2023大会上的主题分享。今天的分享分为四个部分:首先介绍传统离线链路,它存在哪些痛点;第二部分引入数据湖的特性;第三部分是通过快手数据湖几个典型的业务场景来说明如何基于数据湖技术重塑离线链路的生产;最后一部分介绍近期工作和长远规划。希望通过本次分享能够让大家了解数据湖技术在重塑离线生产方式中的关键作用。转载 2023-07-26 08:27:05 · 163 阅读 · 0 评论 -
Lakehouse架构指南
数据湖是一种存储系统,具有底层数据湖文件格式[6]及其不同的数据湖表格式[7],可存储大量非结构化和半结构化数据,并按原样存储,但没有特定用途。广泛的技术和非技术数据消费者可以访问该数据以进行分析用例和机器学习模型,包括商业智能和报告。数据湖还消除了通过传统 BI 工具转换数据需要使用专有格式的需要。将数据加载到数据湖中,数据团队花费时间构建和维护复杂 ETL 管道的旧瓶颈消失了,并且跳过了等待数周的数据访问请求。转载 2023-08-18 08:40:30 · 101 阅读 · 0 评论 -
腾讯 数据湖知识体系解析
数据湖是一种存储系统,底层包括不同的文件格式及湖表格式,可存储大量非结构化和半结构化的原始数据。数据消费者可以访问该数据进行数据分析,包括 BI、报表和机器学习模型训练。有了数据湖,数据变得越来越可用。转载 2023-08-18 07:54:18 · 144 阅读 · 0 评论 -
一个理想的数据湖应具备哪些功能?
从数据库到数据仓库,最后到数据湖[1],随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%[2],将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看,数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0,该趋势可能会增长,该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能,使数据湖成为该行业的支柱。转载 2023-08-17 07:46:53 · 129 阅读 · 0 评论 -
字节跳动基于数据湖技术的近实时场景实践
本讲嘉宾是来自抖音电商实时数仓团队的大数据工程师马汶园,分享主题为基于数据湖技术的近实时场景实践。转载 2023-08-16 21:47:31 · 167 阅读 · 0 评论 -
爱奇艺数据湖实战
数据湖概念于2010年 首次提出,经过多年的演变,目前演化出两种不同的定义——公有云数据湖、非公有云数据湖。规模大,成本低:能支持PB级别数据规模支持更新:包括历史分区新增数据、行级更新等增量拉取:将表的变更转成流数据用于构建下游表时效性:近实时(5分钟)查询快:交互级查询速度表格式是 Iceberg 设计的核心概念,因而需要首先明确表格式的定义。从用户的角度,表格式用于回答“表里面有哪些数据”,表格式的关键目标是“让用户和工具能高效地处理表下的数据”。转载 2023-07-28 08:05:33 · 98 阅读 · 0 评论 -
HDFS廉颇老矣?基于对象存储的数据湖构建新思路
我们经常会被问到一个企业大数据架构的问题:随着企业收集 / 产生的数据越来越多,如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。转载 2023-08-15 07:27:01 · 332 阅读 · 0 评论 -
你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体
我们身处一个大数据时代,企业的数据量爆炸式增长。如何应对海量数据存储和处理的挑战,建设好数据平台,对一个企业来说是很关键的问题。从数据仓库、数据湖,到现在的湖仓一体,业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理,可以帮助企业更好地建设数据平台。这也是百度智能云推出数据湖系列内容的初衷。本系列文章将包含几个部分:本篇将作为数据湖整个系列的开篇,为大家介绍数据平台技术的历史和发展过程中遇到的一些关键技术问题。转载 2023-08-11 08:19:15 · 333 阅读 · 0 评论 -
网易严选数据湖建设实践
过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文将分享网易严选的数据湖建设过程和思考。转载 2023-07-31 08:07:24 · 616 阅读 · 0 评论