分布式存储系统可靠性系列五:副本放置算法 & CopySet Replication

本文分析了分布式存储系统中的副本放置策略,包括随机复制、带故障域的随机复制和CopySet复制。通过CopySet Replication算法,能够在保证恢复时间的前提下,有效降低数据丢失概率,例如在Facebook HDFS集群中,数据丢失概率从22.8%降低到0.78%。该算法通过控制CopySet数量,实现更好的数据分布和可靠性。
摘要由CSDN通过智能技术生成

本文来自网易云社区

作者:孙建良


在分布式存储系统 中说明了,在一定情况下,copyset的数量不是越多越好,在恢复时间确定的情况下,找到合适的copyset的数量可以降低数据丢失的概率。

在分布式存储系统可靠性系列文章分布式存储系统可靠性-设计模式一文中也总结道:

为了提高存储系统数据可靠性,首先在系统允许的成本范围内选择合适的副本数,再次在系统设计中我们首先优先考虑加快数据恢复时间,在此基础上减小系统的copyset数量。使得在既定的成本下达到尽可能高的可靠性。

其实在业界也已经有团队在这方面有过实践和经营总结。《Copysets: Reducing the Frequency of Data Loss in Cloud Storage》,这篇paper是斯坦福大学的学生在facebook HDFS集群上作实验,为了有效降低数据丢失概率,数据放置算法,从原来的Random Replicaiton更改为copyset Replication 算法,实验结果说明可以将FaceBook HDFS集群1%节点故障时的数据丢失概率从22.8%降低道0.78%

  • Motivation: 降低数据丢失概率

  • Innovation: 减少copyset数量可以降低数据丢失概率

  • Implementation: copyset Replication

  • Evaluation: 在Facebook HDFS集群1%节点故障时,22.8% to 0.78%

以下总结分析3种较为典型的副本分布策略,即 Random Replication、Randon Relication With Failure Domain、CopySet Replication,并简单分析这些策略情况下的数据丢失概率。

1 Random Replication

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值