spark hudi 无法同步到hive_实时数据湖Hudi实战

本文详细介绍了如何将Hive表批量同步到Hudi,实时从Kafka同步数据到Hudi表,以及Hudi的并发设置和查询类型。在Hudi与Hive的交互中,讨论了Hudi存储格式的选择和分区策略,同时提供了HudiDeltaStreamer工具用于Kafka数据的实时导入,并探讨了增量查询的实现方式。
摘要由CSDN通过智能技术生成

实时数据湖业务场景

随着业务场景的不断变化,企业对数据服务实时化的需求日益增多。为了满足这一点,需要在分布式文件系统(如HDFS)实现高效且低延迟的数据摄取及数据准备,从而构建面向分钟级延时场景的通用统一服务层

f311acb20198bb15879b03d50e44f135.png

实时数据湖解决方案对比

2fd0cb40b7b15d5467d7a28786c02d62.png

实时数据流管道

be9980781ae2d5d727753a46b4d644e8.png

DFS上实时数据流解决方案

4ec112a0fa25a617b63ad2c11e6c9e21.png

Hudi表存储类型对比

2eb02cb7e0ce2b8d241c7fa3ed6222a3.png

一旦首次数据写入时确定了Hudi存储格式,不能再修改。COW存储格式不需要压缩:

ERROR HoodieCompactor: org.apache.hudi.HoodieNotSupportedException: Compaction is not supported on a CopyOnWrite table

Hudi操作类型使用场景

e7b4370ecfc026acba9a911742d8cc79.png

并发:

hoodie.bulkinsert.shuffle.parallelism

hoodie.insert.shuffle.parallelism

hoodie.upsert.shuffle.parallelism

hoodie.delete.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值