HDFS PB级数据无感迁移实践

前言


前面文章笔者介绍了比较多关于HDFS RBF如何来解决多集群协调管理的问题,RBF里的Router服务在里面扮演着一个很重要的角色。它能让众多的NN对于client来说完全透明,鉴于这一点,我们可以很好地依托Router服务来做到数据的无感迁移,从而间接达到平衡各个namespace RPC load的效果。本文笔者将要阐述的是我们如何在RBF模式下做到数据的无感迁移。

数据无感迁移的挑战


关于大体量数据的迁移,笔者在前年做过一次PB级规模的数据迁移实践(HDFS千万级别文件数/PB规模量级的数据迁移实战总结),不过这次随着集群数据规模的进一步扩张,需要迁移的数据体量也更加庞大。倘若同样沿用之前的做法的话,对于用户停服的时间影响(数小时的服务影响时间)是无法接受的。因此在这次的数据迁移任务中,对于迁移过程的“无感”要求是最高的,如何做到对于用户接近无感的数据迁移,这是我们最大的一个目标,数据迁移的体量还是控制在PB级别。

数据无感迁移实践


在明确完数据迁移的要求之后,我们在调研实践一种新的无感迁移的方案,最终我们采用了社区Federation balance tool(HDFS-15294)的工具方案。这个工具底层依赖的同样是Hadoop自带的DistCp方案。另外,这个工具方案也能很好的支持RBF模式。

我们采用此方案的一个最大的原因是它实现了我们之前考虑过的一种基于初始拷贝+多循环增量拷贝的数据迁移方案。采用这种方式对于用户的影响时间会降低到一个很小的可以接受的时间值,因为用户只会在最后一次增量数据的拷贝过程里才会受到影响(不能读写目标数据)。Fed balance tool的增量拷贝基于的原理是利用了DistCp现有的支持snapshot diff的增量拷贝功能来做的。

虽然Fed balance tool在实现上已经做到将数据迁移的影响做到最小,但是我们在实际的迁移过程里还是踩了不少的

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Android路上的人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值