系统设计 | Ceph 数据分布算法crush

最新推荐文章于 2023-08-16 11:33:32 发布

一的三次方

最新推荐文章于 2023-08-16 11:33:32 发布

阅读量818

点赞数

分类专栏：系统设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mike_learns_to_rock/article/details/85960631

版权

系统设计专栏收录该内容

18 篇文章 0 订阅

订阅专栏

目标

crush算法是为了解决分布式存储领域中的数据分布问题，简言之就是数据如何分布在各个节点和磁盘上。
针对ceph而言，这里的数据就是PG副本，节点/磁盘对应的是OSD进程事例。

难点

数据分布有啥难点呢？

均匀性：如何保证数据均匀分布？读写负载均匀？
集群伸缩：增加或者删除节点，迁移的数据尽量少。
适合大规模场景：集群规模大了，元信息就多了，这种场景下的性能问题必须考虑：如何保证元信息少？快速计算元信息？

集中式元信息 VS 分布式元信息存储

无论是P2P场景还是分布式存储场景，元信息都有这两种方式，对比如下

	集中式	分布式
优点	读写性能好，网络开销低	可用性高，无单点
	集群伸缩时，收敛快速	元数据服务器读写负载均匀，无性能瓶颈
	易调试，方便运营和运维	理论可以无限扩展
缺点	单点问题	读写性能差，网络开销大
	元信息服务器负载高，存在瓶颈	异常情况，可能引起广播风暴
	扩展性存在限制	运维困难

核心思想

1. 映射关系(pg -> osd(x,y,z))

CRUSH(pg_id，cluster state，rule set) --> (OSDi, OSDj, OSDk)

输入参数

pg_id
cluster Map: 静态的ceph集群拓扑结构，树状结构，这棵树的叶子节点是device（osd），其他节点都是bucket（OSD的容器）；
placement rules: 自定义策略（不同rack/1SSD + 2HDD）

2. bucket算法

采用伪随机的方式从bucket中选取一个item，就是有可能不是绝对的均衡。
hash(pg_id, replicate_id, bucket_id)

uniform bucket
list bucket
tree bucket
straw bucket: 默认算法，增加和删除是性能都较好，迁移数据较少

3. 冲突，失效和过载

会重新选择osd

4. 数据迁移

crush实际工作过程

osd失效
crushMap更新

遗留问题

crushMap的何时更新？客户端是否存在crushMap一致性问题

一的三次方

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
系统设计 | Ceph 数据分布算法crush

目标crush算法是为了解决分布式存储领域中的数据分布问题，简言之就是数据如何分布在各个节点和磁盘上。针对ceph而言，这里的数据就是PG副本，节点/磁盘对应的是OSD进程事例。难点数据分布有啥难点呢？均匀性：如何保证数据均匀分布？读写负载均匀？集群伸缩：增加或者删除节点，迁移的数据尽量少。适合大规模场景：集群规模大了，元信息就多了，这种场景下的性能问题必须考虑：如何保证元信息...
复制链接

扫一扫

专栏目录

一的三次方 CSDN认证博客专家 CSDN认证企业博客

码龄9年

111: 原创

6万+: 周排名

109万+: 总排名

6万+: 访问

: 等级

1961: 积分

10: 粉丝

14: 获赞

4: 评论

58: 收藏

私信

关注

热门文章

分类专栏

为什么设计 2篇
leetcode经典题目 1篇
内功修炼 10篇
算法 14篇
leetcode 69篇
系统设计 18篇
编程范式 14篇
翻译 4篇
杂谈 7篇

最新评论

系统设计 | 设计限流器
huihttp: 可以使用令牌桶算法，这样每次访问只需要存储userid{上次访问时间，上次访问完剩余令牌数}，用户每次访问是根据上次访问时间和上次剩余令牌数算出来当前的令牌数,如果令牌数大于0可以放行,然后减一存到redis里,覆盖令牌信息,这样1M用户量只需要（8+4+2+20）*1M = 34M 空间就可以存下来所有的数据，而且跟访问限制频率N无关，而且我们可以设置过期时间，例如我们想限制一个用户(或者一个IP)一分钟内只能访问500次,那么令牌桶大小是10,生成令牌频率设置为2ms,设置redis过期时间是一分钟即可,这样保证内存里只有一分钟内访问的用户令牌信息,如果一分钟内没有访问的用户A我们redis里读不到他的令牌信息,认为用户A的令牌桶是满的进行处理即可
深入理解计算机系统| 存储器山
要吃苍蝇自己抓: 时间局部性（Temporal locality）：如果被访问过的存储器地址在较短时间内被再次访问，则程序具有良好的时间局部性。在一定的时间内，重复访问同一个地址的次数越多，时间局部性越好。换句话说，对同一个地址的两次访问间隔时间越短，时间局部性越好；空间局部性（Spatial locality）：如果程序访问某个存储器地址后，又在较短时间内访问临近的存储器地址，则程序具有良好的空间局部性。两次访问的地址越接近，空间局部性越好。 --- 维基百科.存储器山
系统设计 | Ceph 数据分布算法crush
程序员欣宸: 配图很棒，赞
leetcode | 969. Pancake Sorting(sorting)
wujianqinjian: 期待更精彩的序章！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。