简介
hudi官方提供了下面四种方式写入hudi,可以根据不通同的业务需求选择合适的写入方式。
- bulk_insert
- Index bootstrap
- Changelog Mode
- Insert Mode
bulk_insert
用于快速导入快照数据到hudi。
基本特性
bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重
,所以用户需要保证数据的唯一性。
bulk_insert在批量写入模式中是更加有效率的。默认情况下,批量执行模式按照分区路径对输入记录进行排序,并将这些记录写入Hudi,该方式可以避免频繁切换文件句柄导致的写性能下降。
bulk_insert的并行度有write.tasks
参数指定,并行度会影响小文件的数量。理论上来说,bulk_insert的并行度就是bucket的数量(特别是,当每个bucket写到最大文件大小时,它将转到新的文件句柄。最后,文件的数量将大于参数write.bucket.assign.tasks
指定的数量 )
可选配置参数
参数名称 | 是否必须 | 默认值 | 参 |
---|