增量处理框架：Hudi

最新推荐文章于 2024-08-07 09:41:20 发布

羊羊羊羊吃青草

最新推荐文章于 2024-08-07 09:41:20 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： hudi spark 大数据实时大数据增量

本文链接：https://blog.csdn.net/qq_18874531/article/details/111195743

版权

12 篇文章 0 订阅

订阅专栏

Hudi（Hadoop Upserts and Incrementals）增量处理框架

DFS上对数据进行索引和布局，分为插入更新和增量拉取。

CopyOnWrite（写时复制）：
- 仅使用列文件格式（parquet）存储数据在写入过程执行同步合并，并更新版本重写文件。
- 即使更新一行，都将重写整个parquet文件，文件越大，花费时间越长。读视图：快照查询、增量查询
MergeOnRead（读时合并）：
- 使用列式（parquet）加基于行（avro）的文件格式组合，来存储数据。
- 写入hudi的新数据，都会更新记录到新的日志或增量文件中，文件在内部数据以avro编码
- 然后同步或异步压缩，生成新版本的列文件（parquet）
- 读视图：快照查询、增量查询、读取优化
  
  写时复制读时合并
  延迟高
  耗（I/O) 高（重写parquet）
  quet文件大小小（高I/O损耗代价）
  更高更低（取决于压缩策略）
Copy On Write(写入性能差，读性能高）
Merge On Read（读性能差，但写入比较及时，可提供近实时的数据分析能力）

hive、spark、presto、MapReduce

性能：使用hoodieKey
缺点：
- 缺乏事务锁等机制
- 不支持同时刻多个用户写一张表
- 不支持NoSQL / RDBMS数据存储
使用Hadoop InputFormat相关扩展直接操作Parquet文件（能更好的被其他计算引擎整合）
HiveSyncTool:
- hudi提供HiveSyncTool工具同步数据到hive
支持的语言：Scala、Java
- Python支持以pyspark操作hudi: https://issues.apache.org/jira/browse/HUDI-783
hudi提供了docker，便于初学者练习：https://github.com/apache/hudi