Hudi表类型以及查询方式

1、hudi表类型

表类型支持的查询方式数据存储格式
Copy on Write (写时复制)快照查询+增量查询全量和增量数据均存储为列式parquet格式
Merge on Read (读时合并)快照查询+增量查询+读取优化查询(近实时)全量数据存储为列式parquet数据,增量数据存储为行式arvo格式

        下面总结了两种表类型之间的权衡

权衡CopyOnWriteMergeOnRead
数据延迟
查询延迟
Update(I/O) 更新成本高(重写整个Parquet文件)低(追加到增量日志)
Parquet File Size低(更新成本I/O高)较大(低更新成本)
Write Amplification(WA写入放大)低(取决于压缩策略)

2、两种表类型的选择

Copy on write由于具有低的查询延迟所以比较适合应用在ADS层,merge On read由于具有低的更新成本所以在处理拉链表等需要频繁更新的表时具有优势。

3、查询方式

  1. 快照查询:可以读取到读优化的列式数据和写优化的行式数据
  2. 增量查询:只能读取最新快照和最新合并的快照部分
  3. 读优化视图:仅提供compaction后的列式存储的数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值