集群映射由Device和桶(Buckets)组成,设备和桶都有ID描述和权重。Bucket可以包含任意设备或者其他的bucket,使他们形成内部节点的存储层次结构,设备总是在叶子节点。存储设备的权重由管理员设置以控制设备负责存储的相对数据量。尽管大型系统的设备含不同的容量大小和性能特点,随机数据分布算法可以根据设备的利用率和负载来分布数据。这样设备的平均负载与存储的数据量成正比。这导致一维位置指标、权重、应来源于设备的能力。桶的权重是它所包含的元素的权重的总和。Device(OSD)的权重值越高,对应的磁盘会被分配写入更多的数据。从集群整体来看,数据会均匀的写入分布于集群的所磁盘,从而提高整体性能和可靠性。

Buckets可由任意可用存储的层次结构组成。例如,可以创建这样一个集群映射,用名为“shelf”的桶代表最低层的一个主机来包含主机上的磁盘设备,然后用名为“cabinet”的桶来包含安装在同一个机架上的主机。在一个大的系统中,代表机架的“cabinet”桶可能还会包含在“row”桶或者“room”桶里。数据被通过一个伪随机类hash函数递归地分配到层级分明的桶元素中。传统的散列分布技术,一旦存储目标数量有变,就会导致大量的数据迁移;CRUSH算法是基于桶四个不同的类型,每一个都有不同的选择算法,以解决添加或删除设备造成的数据移动和整体的计算复杂度。

分层集群的基本概念:

Device

最基本的存储设备,也就是OSD,通常一个OSD对应一个磁盘存储设备。

Bucket

表示放设备的容器,可以包含多个设备或子类型的Bucket。

Bucket的类型:

用来指定OSD 在CRUSH分层结构中的位置;Bucket可以包含很多种类型,例如:Host就代表一个主机节点,可以包含多个Device;Rack代表机架,包含多个Host节点。在ceph中默认有osd、host、chassis、rack、row、pdu、pod、room、datacenter、region、root 11个等级。用户也可以自己定义新的类型。每个Device都设置了自己的权重,和自己的存储空间相关。Bucket的权重就是子Bucket(或者设备)的权重之和。类型描述如下表:

p_w_picpath

解读CRUSH map Bucket用法

# buckets

host node-7 {                            //类型Host 名称为node-7

id -3 # do not change unnecessarily   //Bucket的ID,一般为负数

# weight 5.460                        //权重值,一般为item的权重值之和

alg straw                            //Bucket随机选择的算法

hash 0 # rjenkins1                  //Bucket随机选择的算法使用的HASH函数,这里0代表使用HASH函数jenkins1

item osd.0 weight 2.730           //OSD.0权重值

item osd.1 weight 2.730          //OSD.1权重值

}

host node-6 {

id -4 # do not change unnecessarily

# weight 5.460

alg straw

hash 0 # rjenkins1

item osd.2 weight 2.730

item osd.5 weight 2.730

}

host node-5 {

id -5 # do not change unnecessarily

# weight 5.460

alg straw

hash 0 # rjenkins1

item osd.3 weight 2.730

item osd.4 weight 2.730

}

host node-9 {

id -6 # do not change unnecessarily

# weight 0.540

alg straw

hash 0 # rjenkins1

item osd.7 weight 0.540

}

host node-10 {

id -7 # do not change unnecessarily

# weight 0.540

alg straw

hash 0 # rjenkins1

item osd.6 weight 0.540

}

host node-8 {

id -8 # do not change unnecessarily

# weight 0.540

alg straw

hash 0 # rjenkins1

item osd.8 weight 0.540

}

root default {                              //root类型的Bucket 名字为default

id -1 # do not change unnecessarily     //ID号

# weight 18.000                          //权重值,一般为item的权重值之和

alg straw                              //随机选择的算法straw

hash 0 # rjenkins1                    //Bucket随机选择的算法使用的HASH函数,这里0代表使用HASH函数jenkins1

item node-7 weight 5.460             //Host的权重为子设备(OSD)权重之和

item node-6 weight 5.460

item node-5 weight 5.460

item node-9 weight 0.540

item node-10 weight 0.540

item node-8 weight 0.540

}

根据上面CRUSH Map配置文件可以绘制一张关于Bucket层级的组织图:

p_w_picpath

CRUSH map Bucket配置解读实例:

  • 有一个root类型的Bucket,名称为default

  • root下有6个Host类型的Bucket,名字分别为node-5、node-6、node-7、node-8、node-9、node-10;其中node-5、node-6、node-7节点下分别有2个OSD设备,每个OSD设备权重值为2.730;说明它们容量大小一致。而node-8、node-9、node-10节点下只有一个OSD设备,其OSD设备权重值均为0.540,表示他们容量大小也是一致的。其中node-5、node-6、node-7主机节点的权重值为OSD设备权重值之和为5.460;而node-8、node-9、node-10主机节点的权重值为OSD设备权重值之和为:0.540。主机权重值是根据各个节点上OSD权重值之和进行自动计算。根据主机间权重值可以看出该集群节点OSD数量、容量都不一致。

  • Hash设置了使用Hash函数,值0代表使用rjenkins1

  • alg代表在该Bucket里选择子item的算法