Ceph分布式存储实战3.2　CRUSH基本原理

最新推荐文章于 2023-06-05 07:41:52 发布

weixin_34033624

最新推荐文章于 2023-06-05 07:41:52 发布

阅读量208

点赞数

文章标签：运维

原文链接：https://yq.aliyun.com/articles/82341

版权

3.2　CRUSH基本原理

众所周知，存储设备具有吞吐量限制，它影响读写性能和可扩展性能。所以，存储系统通常都支持条带化以增加存储系统的吞吐量并提升性能，数据条带化最常见的方式是做RAID。与Ceph的条带化最相似的是RAID 0或者是“带区卷”。Ceph条带化提供了类似于RAID 0的吞吐量，N路RAID镜像的可靠性以及更快速的恢复能力。

在磁盘阵列中，数据是以条带（stripe）的方式贯穿在磁盘阵列所有硬盘中的。这种数据的分配方式可以弥补OS读取数据量跟不上的不足。

1）将条带单元（stripe unit）从阵列的第一个硬盘到最后一个硬盘收集起来，就可以称为条带（stripe）。有的时候，条带单元也被称为交错深度。在光纤技术中，一个条带单元被叫作段。

2）数据在阵列中的硬盘上是以条带的形式分布的，条带化是指数据在阵列中所有硬盘中的存储过程。文件中的数据被分割成小块的数据段在阵列中的硬盘上顺序的存储，这个最小数据块就叫作条带单元。

决定Ceph条带化数据的3个因素。

对象大小：处于分布式集群中的对象拥有一个最大可配置的尺寸（例如，2MB、4MB等），对象大小应该足够大以适应大量的条带单元。

条带宽度：条带有一个可以配置的单元大小，Ceph Client端将数据写入对象分成相同大小的条带单元，除了最后一个条带之外；每个条带宽度，应该是对象大小的一小部分，这样使得一个对象可以包含多个条带单元。

条带总量：Ceph客户端写入一系列的条带单元到一系列的对象，这就决定了条带的总量，这些对象被称为对象集，当Ceph客户端端写入的对象集合中的最后一个对象之后，它将会返回到对象集合中的第一个对象处。

3.2.1　Object与PG

Ceph条带化之后，将获得N个带有唯一oid（即object的id）。Object id是进行线性映射生成的，即由file的元数据、Ceph条带化产生的Object的序号连缀而成。此时Object需要映射到PG中，该映射包括两部分。

1）由Ceph集群指定的静态Hash函数计算Object的oid，获取到其Hash值。

2）将该Hash值与mask进行与操作，从而获得PG ID。

根据RADOS的设计，假定集群中设定的PG总数为M（M一般为2的整数幂），则mask的值为M–1。由此，Hash值计算之后，进行按位与操作是想从所有PG中近似均匀地随机选择。基于该原理以及概率论的相关原理，当用于数量庞大的Object以及PG时，获得到的PG ID是近似均匀的。

计算PG的ID示例如下。

1）Client输入pool ID和对象ID（如pool=‘liverpool’，object-id=‘john’）。

2）CRUSH获得对象ID并对其Hash运算。

3）CRUSH计算OSD个数，Hash取模获得PG的ID（如0x58）。

4）CRUSH获得已命名pool的ID（如liverpool=4）。

5）CRUSH预先考虑到pool ID相同的PG ID（如4.0x58）。

3.2.2　PG与OSD

由PG映射到数据存储的实际单元OSD中，该映射是由CRUSH算法来确定的，将PG ID作为该算法的输入，获得到包含N个OSD的集合，集合中第一个OSD被作为主OSD，其他的OSD则依次作为从OSD。N为该PG所在POOL下的副本数目，在生产环境中N一般为3；OSD集合中的OSD将共同存储和维护该PG下的Object。需要注意的是，CRUSH算法的结果不是绝对不变的，而是受到其他因素的影响。其影响因素主要有以下两个。

一是当前系统状态。也就是上文逻辑结构中曾经提及的Cluster Map（集群映射）。当系统中的OSD状态、数量发生变化时，Cluster Map可能发生变化，而这种变化将会影响到PG与OSD之间的映射。

二是存储策略配置。这里的策略主要与安全相关。利用策略配置，系统管理员可以指定承载同一个PG的3个OSD分别位于数据中心的不同服务器乃至机架上，从而进一步改善存储的可靠性。

因此，只有在Cluster Map和存储策略都不发生变化的时候，PG和OSD之间的映射关系才是固定不变的。在实际使用中，策略一经配置通常不会改变。而系统状态的改变或者是因为设备损坏，或者是因为存储集群规模扩大。好在Ceph本身提供了对于这种变化的自动化支持，因而，即便PG与OSD之间的映射关系发生了变化，并不会对应用造成困扰。事实上，Ceph正是需要有目的的利用这种动态映射关系。正是利用了CRUSH的动态特性，Ceph才可以将一个PG根据需要动态迁移到不同的OSD组合上，从而自动化地实现高可靠性、数据分布re-blancing等特性。

之所以在此次映射中使用CRUSH算法，而不是其他Hash算法，原因之一是CRUSH具有上述可配置特性，可以根据管理员的配置参数决定OSD的物理位置映射策略；另一方面是因为CRUSH具有特殊的“稳定性”，也就是当系统中加入新的OSD导致系统规模增大时，大部分PG与OSD之间的映射关系不会发生改变，只有少部分PG的映射关系会发生变化并引发数据迁移。这种可配置性和稳定性都不是普通Hash算法所能提供的。因此，CRUSH算法的设计也是Ceph的核心内容之一。

3.2.3　PG与Pool

Ceph存储系统支持“池”（Pool）的概念，这是存储对象的逻辑分区。

Ceph Client端从Ceph mon端检索Cluster Map，写入对象到Pool。Pool的副本数目，Crush规则和PG数目决定了Ceph将数据存储的位置，如图3-1所示。

Pool至少需要设定以下参数。

对象的所有权/访问权。

PG数目。

该pool使用的crush规则。

对象副本的数目。

Object、PG、Pool、OSD关系图，如图3-2所示。

图3-2　映射关系图

Pool相关的操作如下。

1）创建pool。

ceph osd pool create {pool-name} {pg-num} [{pgp-num}] [replicated] \

[crush-ruleset-name] [expected-num-objects]

ceph osd pool create {pool-name} {pg-num} {pgp-num} erasure \

[erasure-code-profile] [crush-ruleset-name] [expected_num_objects]

2）配置pool配额。

ceph osd pool set-quota {pool-name} [max_objects {obj-count}] [max_bytes {bytes}]

3）删除pool。

ceph osd pool delete {pool-name} [{pool-name} --yes-i-really-really-mean-it]

4）重命名pool。

ceph osd pool rename {current-pool-name} {new-pool-name}

5）展示pool统计。

rados df

6）给pool做快照。

ceph osd pool mksnap {pool-name} {snap-name}

7）删除pool快照。

ceph osd pool rmsnap {pool-name} {snap-name}

8）配置pool的相关参数。

ceph osd pool set {pool-name} {key} {value}

9）获取pool参数的值。

ceph osd pool get {pool-name} {key}

10）配置对象副本数目。

ceph osd pool set {poolname} size {num-replicas}

11）获取对对象副本数目。

ceph osd dump | grep 'replicated size'

weixin_34033624

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ceph分布式存储实战3.2　CRUSH基本原理

3.2　CRUSH基本原理众所周知，存储设备具有吞吐量限制，它影响读写性能和可扩展性能。所以，存储系统通常都支持条带化以增加存储系统的吞吐量并提升性能，数据条带化最常见的方式是做RAID。与Ceph的条带化最相似的是RAID 0或者是“带区卷”。Ceph条带化提供了类似于RAID 0的吞吐量，N路RAID镜像的可靠性以及更快速的恢复能力。在磁盘阵...
复制链接

扫一扫