[HDFS]hdfs租约--我们flink写hdfs做checkpoint时候失败导致文件缺失

最新推荐文章于 2024-04-17 00:15:44 发布

pmdream

最新推荐文章于 2024-04-17 00:15:44 发布

阅读量1.2k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pmdream/article/details/119193109

版权

大数据专栏收录该内容

4 篇文章 19 订阅

订阅专栏

文件实际是写完的，因为checkpoint做失败了，导致文件没有被hdfs计算在内。

我们用flink 写入到hdfs，报错信息会提示replicas副本数量不足。

hdfs元信息里面记录的文件大小和实际落地的文件大小不一致。

导致hive的任务只获取到一部分数据。

这种情况很偶发，认为是hdfs集群负载过高导致。

但是集群的运维说其实这种问题也出现过几次了，其实就是hdfs的租约问题。

hdfs 写到最后，checkpoint失败的话，导致元数据没有及时被更新，导致读不到这个文件。或者读取有问题

解决：加上flink任务状态和错误日志的监控，出现问题告警。

但是实际上是因为checkpoint 失败，导致hdfs租约失败。

比如一个20k的文件，写到5k的时候，元数据记录成5k，然后后续还没更改元数据，然后客户端断了，可能会导致强制关闭文件。

然后会文件大小和元数据记录的大小不一致，文件就有问题。

关于hdfs的租约，网上也有很多详细的资料：

https://blog.csdn.net/androidlushangderen/article/details/52850349

总结：在HDFS中，当每次客户端用户往某个文件中写入数据的时候，为了保持数据的一致性，此时其它客户端程序是不允许向此文件同时写入数据的。那么HDFS是如何做到这一点的呢？答案是租约（Lease）。换句话说，租约是HDFS给予客户端的一个写文件操作的临时许可证，无此证件者将不被允许操作此文件

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[HDFS]hdfs租约--我们flink写hdfs做checkpoint时候失败导致文件缺失

文件实际是写完的，因为checkpoint做失败了，导致文件没有被hdfs计算在内。我们用flink 写入到hdfs，报错信息会提示replicas副本数量不足。hdfs元信息里面记录的文件大小和实际落地的文件大小不一致。导致hive的任务只获取到一部分数据。这种情况很偶发，认为是hdfs集群负载过高导致。解决：加上flink任务状态和错误日志的监控，出现问题告警。但是实际上是因为checkpoint 失败，导致hdfs租约失败。比如一个20k的文件，写到5k的时候，元数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。