Copyset Replication -- Curve的数据分布策略

最新推荐文章于 2024-01-05 16:16:32 发布

网易杭研

最新推荐文章于 2024-01-05 16:16:32 发布

阅读量3.1k

点赞数 1

分类专栏： Curve 文章标签： Curve 分布式存储分布式架构 CopySet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NetEaseResearch/article/details/116306092

版权

本文详细介绍了Curve分布式存储系统中的Copyset复制策略，包括设计目标、核心概念和实现方法。Copyset旨在保证数据均衡分布，提高数据持久性和避免热点。通过随机化方法在故障域内生成Copyset，结合scatter width计算，确保数据恢复的并发度和系统可靠性。

摘要由CSDN通过智能技术生成

Copyset模块结合chunk的放置共同解决了集群数据如何分布的问题，这里主要的设计考虑点是数据分布的均衡性以充分利用磁盘空间和避免热点。

1. 背景

Curve是网易数帆在2020年7月份开源的一个高性能、高可用、高可靠的分布式存储系统，主打高性能、低延迟。

Github代码仓库：https://github.com/opencurve/curve

Curve存储系统的基础设计框架与经典的GFS基本类似，采⽤有中心节点的架构，核心服务由4个部分组成：

元数据节点MDS，主要有两个职责，一方面管理和存储元数据信息，另一方面感知集群状态并进⾏调度。元数据存储在etcd中。
数据节点ChunkServer，一方面负责数据的存储，另一方面负责数据一致性（如果底层是多副本，需要负责副本间的数据一致性）。在我们的实践中，一个chunksever对应与一块盘。
客⼾端Client，向上层应用提供对文件的操作接口(open、read、write等)，会和MDS以及ChunkServer交互，与MDS交互实现对元数据的增删改查；与ChunkServer交互实现对数据的增删改查。
快照克隆服务器独立于核心服务，对外提供了HTTP接口，用于处理和管理快照克隆任务。

在Curve系统中，存储资源被分成了一个个分片，称之为Chunk，典型的Chunk大小是16MB。为了实现数据高可用、高可靠，chunk通常会被复制多个副本，较为常见的是3个副本的配置，这样的三个副本的组合，叫做复制组，也就是我们称之为CopySet的概念。本文所描述的CopySet Replication指的就是一种复制组如何分布到上述这些ChunkServer上的一种算法。

CopySet Replication的概念由文献「Copysets: Reducing the Frequency of Data Loss in Cloud Storage」而来，本意是为了提高分布式存储系统中的数据持久性，降低数据丢失的概率。如下图所示。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

网易杭研 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。