不容忽视的数据备份问题

数据问题其实在很多地方都是不容忽视的,不出事还感觉不到它的存在,一出事就凉凉的。其他的数据安全问题今天就不展开聊,想和大家分享的是数据备份的问题。

我们大多数中台的数据都是会存储在HDFS中的,即便是Kafka的数据也是会落地一份到HDFS的,所以我们需要有一套机制来解决HDFS的数据备份。

上图为郭忆老师分享的在网易他们进行HDFS数据备份的架构图,就是主要分为2个集群,线上集群以及冷备集群,而在冷备集群上采用的额EC存储,以解决存储成本的问题。

EC存储:也叫 HDFS Erasure Coding,它其实就是使用 Erasure Coding的办法来代替直接复制一份数据进行备份,但是也有相同的可靠性,在存储方面却可以节约很多。主要是通过牺牲一些计算资源来达到目的。适用于那些平时不怎么用的数据,所以很适合用来备份数据的存储。

扩展阅读:https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html

这里,我们可以了解多一些,就是线上集群的数据如何进行冷备集群的备份?一般来说我们可以用Hadoop自带的DistCp,它支持增量数据的同步,大致的同步步骤如下图所示:

另外需要注意的是我们备份数据是需要从线上集群中去拷贝数据的,这样子会对集群的性能造成影响的,所以一般不会在高峰期进行的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值