![](https://img-blog.csdnimg.cn/018ae80a7a7b4131934ab497b41a332a.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hudi
文章平均质量分 92
Apache Hudi是一个大数据增量处理框架,它试图解决摄取管道的效率问题和在大数据中需要插入,更新和增量消耗基元的ETL管道。
@SmartSi
Stay Hungry, Stay Foolish
展开
-
一文彻底理解 Apache Hudi 的清理服务
Apache Hudi 提供了 MVCC 并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。转载 2023-08-28 08:47:38 · 238 阅读 · 0 评论 -
一文彻底弄懂Apache Hudi不同表类型
在深入研究 COW 和 MOR 之前,让我们先了解一下 Hudi 中使用的一些术语,以便更好地理解以下部分。转载 2023-08-25 08:17:28 · 207 阅读 · 0 评论 -
基于 Apache Hudi 构建数据湖的典型应用场景介绍
传统大数据由于不支持事务等痛点问题,造成T+1时延,虽然能够基于Flink流式计算实现少量数据在简单场景的秒级数据处理能力,但依然缺乏海量复杂场景的实时更新、事务支持能力。现在基于华为云FusionInsight MRS的Hudi可以构建分钟级数据处理方案,实现较大数据量的复杂计算实时处理能力,大大提升数据时效性,让数据价值近在眼前。转载 2023-08-25 07:25:30 · 346 阅读 · 0 评论 -
Apache Hudi 在腾讯的落地与应用
如上图所示,以最简单的覆盖逻辑为例,当读到 BaseFile 中的主键是 key1 的 Record 时,发现 key1 在 Map 中已经存在并且对应的 Record 有 BCD 三列的值,则更新 BaseFile 中的 BCD 列,得到新的 Record(key1,b0_new,c0_new,d0_new,e0),注意 E 列没有被更新,所以保持原来的值 e0。同时,这套方案的扩展性也更加好。在传统的Hive数仓中想保证实时是非常困难的,尤其是文件更新,湖表实时写入更新,基本不可能实现。转载 2023-08-23 08:32:22 · 239 阅读 · 0 评论 -
Apache Hudi 典型应用场景知多少?
此外,Hudi 没有外部依赖项(例如专用于实时分析的专用HBase群集),因此可以在不增加运营成本的情况下,对更实时的数据进行更快的分析。在这种情况下,保证正确性的唯一方法是每小时重复处理最后几个小时的数据,这会严重损害整个生态系统的效率。Hudi可以很好的解决上述问题,其通过记录粒度(而非文件夹或分区)来消费上游Hudi表 HU中的新数据,下游的Hudi表 HD应用处理逻辑并更新/协调延迟数据,这里 HU和 HD可以以更频繁的时间(例如15分钟)连续进行调度,并在 HD上提供30分钟的端到端延迟。转载 2023-08-23 07:36:06 · 111 阅读 · 0 评论 -
Hudi 基本概念
Apache Hudi(发音为“Hudi”)在DFS的数据集上提供以下流原语在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。转载 2023-08-20 16:59:52 · 84 阅读 · 0 评论 -
Apache Hudi:新一代流式数据湖平台
早在 2016 年,我们就提出了一个大胆的新愿景 [1],通过一个新的“增量”数据处理技术栈(结合现有的批处理和流式处理堆栈)重新构想批处理。虽然流处理管道进行面向行的处理,提供秒级处理延迟,但增量管道将对数据湖中的列数据应用相同的原则,高效的数据处理,及相对批处理数量级的改进,同时存储 / 计算可高度扩展。这个新的技术栈将能够毫不费力地支持批量再加工 / 回填的常规处理。Apache Hudi 是作为这一愿景的体现而建立的,它植根于 Uber 面临的真实、困难的问题 [2],后来在开源社区中独树一帜。总之转载 2023-08-20 08:29:16 · 212 阅读 · 0 评论 -
数据湖在快手的生产实践
本文整理自快手数据架构研发专家张静在WOT2023大会上的主题分享。今天的分享分为四个部分:首先介绍传统离线链路,它存在哪些痛点;第二部分引入数据湖的特性;第三部分是通过快手数据湖几个典型的业务场景来说明如何基于数据湖技术重塑离线链路的生产;最后一部分介绍近期工作和长远规划。希望通过本次分享能够让大家了解数据湖技术在重塑离线生产方式中的关键作用。转载 2023-07-26 08:27:05 · 138 阅读 · 0 评论 -
Apache Hudi 2022 新年大礼包
1. 内核一文彻底弄懂Apache Hudi不同表类型硬核!Apache Hudi中自定义序列化和数据写入逻辑Apache Hudi内核之文件标记机制深入解析一文彻底理解Apache Hudi的清理服务17张图带你彻底理解Hudi Upsert原理干货!Apache Hudi如何智能处理小文件问题Apache Hudi核心概念一网打尽2. 生产实践基于Apache Hudi + Flink的亿级数据入湖实践OnZoom基于Apache Hudi的流批一体架构实践字节跳动基于Apa原创 2022-01-02 12:10:43 · 806 阅读 · 0 评论