关于hudi与HDFS/对象存储的文件追加写(Append)

Hudi通过Hadoop FileSystem API与多种存储交互,包括HDFS和对象存储。尽管HDFS从1.0.4版本起支持文件追加写,但大多数云存储如S3和OSS并不直接支持。Hudi利用HDFS的append功能优化流式写入,减少文件计数。OSS通过特定接口实现追加写,但不常用。当前,AWS EMR已集成Hudi,且Hudi对OSS进行了更多适配工作。
摘要由CSDN通过智能技术生成

在HDFS的早期版本中,出于种种考虑,没有支持文件的追加写。但从1.0.4版本开始,支持了文件追加写。配置文件中也有是否开启该功能的选项:

<property>
    <name>dfs.support.append</name>
    <value>true</value>
</property>

而对于公有云上常见的对象存储,比如S3和OSS,是否支持追加写呢?

OSS的一般文件不支持append。不过可以创建追加写类型文件,就能够支持append。调用AppendObject接口会创建一个追加类型文件,后续就可以对该文件进行追加写操作。但这种模式似乎很少使用。

S3同样是不支持append的。

在对象存储服务上想对文件追加内容,一般都需要下载后追加然后再上传覆盖原来的文件。

以下论述摘自hudi官网:Hudi interacts with lake storage using the Hadoop FileSystem API, which makes it compatible with all of its implementations ranging from HDFS to Cloud Stores to even in-memory filesystems like Alluxio/Ignite. Hudi internally implements its own wrapper filesystem on top to provide additional storage optimizations (e.g: file sizing), performance optimizations (e.g: buffering), and metrics. Uniquely, Hudi takes full advantage of

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值