分布式存储Ceph技术

最新推荐文章于 2024-08-07 18:22:52 发布

Mr_Wzzzz

最新推荐文章于 2024-08-07 18:22:52 发布

阅读量729

点赞数

文章标签： ceph 分布式存储

原文链接：https://b23.tv/Mfa4xP

版权

分布式存储ceph技术

分布式存储

什么是分布式存储

分布式存储系统，是通过网络将数据分散存储在多台独立的设备上。

分布式存储的特性

分布式存储系统可以扩展到几百台甚至几千台的集群规模，而且随着集群规模的增长，系统整体性能表现为线性增长。分布式存储的水平扩展有以下几个特性：

节点扩展后，旧数据会自动迁移到新节点，实现负载均衡，避免单点过热的情况出现;
水平扩展只需要将新节点和原有集群连接到同一网络，整个过程不会对业务造成影响;
当节点被添加到集群，集群系统的整体容量和性能也随之线性扩展，此后新节点的资源就会被管理平台接管，被用于分配或者回收。

低成本
分布式存储系统的自动容错、自动负载均衡机制使其可以构建在普通的PC机之上。另外，线性扩展能力也使得增加、减少机器非常方便，可以实现自动运维。

高性能
无论是针对整个集群还是单台服务器，都要求分布式存储系统具备高性能。

易用
分布式存储系统需要能够提供易用的对外接口，另外，也要求具备完善的监控、运维工具，并能够与其他系统集成。

易管理
可通过一个简单的WEB界面就可以对整个系统进行配置管理，运维简便，极低的管理成本。

分布式存储系统的挑战主要在于数据、状态信息的持久化，要求在自动迁移、自动容错、并发读写的过程中保证数据的一致性。分布式存储涉及的技术主要来自两个领域：分布式系统以及数据库。

存储的分类（不完善）

本地存储本地的文件系统，不能在网络上用。
ext3 ext4 xfs ntfs

网络存储—网络文件系统，共享的都是文件系统。
nfs 网络文件系统
hdfs 分布式网络文件系统
glusterfs 分布式网络文件系统

ceph

ceph简介

Ceph使用C++语言开发，遵循LGPL协议开源。Sage Weil(Ceph论文发表者)于2011年创立了以Inktank公司主导Ceph的开发和社区维护。2014年Redhat收购inktank公司，并发布Inktank Ceph企业版（ICE）软件，业务场景聚焦云、备份和归档，支持对象存储和块存储以及文件系统存储应用。出现Ceph开源社区版本和Redhat企业版。
Cphe主要设计的初衷是变成一个可避免单节点故障的分布式文件系统，PB级别的扩展能力，而且是一种开源自由软件，许多超融合的分布式文件系统都是基于Ceph开发的。
Ceph是一个统一的分布式存储系统，设计初衷是提供较好的性能、可靠性和可扩展性。

ceph的优势

高扩展性：使用普通x86服务器，支持10~1000台服务器，支持TB到EB级的扩展。
高可靠性：没有单点故障，多数据副本，自动管理，自动修复。
高性能：数据分布均衡。
可用于对象存储，块设备存储和文件系统存储

ceph架构

在这里插入图片描述
基础存储系统
rados：基础存储系统RADOS（Reliable, Autonomic, Distributed Object Store，即可靠的、自动化的、分布式的对象存储）。所有存储在Ceph系统中的用户数据事实上最终都是由这一层来存储的。Ceph的高可靠、高可扩展、高性能、高自动化等等特性本质上也是由这一层所提供的。

基础库librados:
librados：这一层的功能是对RADOS进行抽象和封装，并向上层提供API，以便直接基于RADOS（而不是整个Ceph）进行应用开发。特别要注意的是，RADOS是一个对象存储系统，因此，librados实现的API也只是针对对象存储功能的。

高层应用接口
radosgw：对象网关接口(对象存储)
rbd:块存储
cephfs：文件系统存储
其作用是在librados库的基础上提供抽象层次更高、更便于应用或客户端使用的上层接口。

ceph的基本组件

在这里插入图片描述

Osd
用于集群中所有数据与对象的存储。处理集群数据的复制、恢复、回填、再均衡。并向其他osd守护进程发送心跳，然后向Mon提供一些监控信息。
当Ceph存储集群设定数据有两个副本时（一共存两份），则至少需要两个OSD守护进程即两个OSD节点，集群才能达到active+clean状态。

MDS(可选)
为Ceph文件系统提供元数据计算、缓存与同步（也就是说，Ceph 块设备和 Ceph 对象存储不使用MDS ）。在ceph中，元数据也是存储在osd节点中的，mds类似于元数据的代理缓存服务器。MDS进程并不是必须的进程，只有需要使用CEPHFS时，才需要配置MDS节点。

Monitor
监控整个集群的状态，维护集群的cluster MAP二进制表，保证集群数据的一致性。ClusterMAP描述了对象块存储的物理位置，以及一个将设备聚合到物理位置的桶列表。

Manager（ceph-mgr）
用于收集ceph集群状态、运行指标，比如存储利用率、当前性能指标和系统负载。对外提供 ceph dashboard（ceph ui）和 resetful api。Manager组件开启高可用时，至少2个

ceph结构

ceph结构主要包含两部分

ceph client：访问 ceph 底层服务或组件，对外提供各种接口。比如：对象存储接口、块存储接口、文件级存储接口。
ceph node：ceph 底层服务提供端，也就是 ceph 存储集群。

ceph存储种类和应用场景

块存储

在这里插入图片描述
典型设备：磁盘阵列，硬盘

主要是将裸磁盘空间映射给主机使用的。

优点

通过Raid与LVM等手段，对数据提供了保护。
多块廉价的硬盘组合起来，提高容量。
多块磁盘组合出来的逻辑盘，提升读写效率。

缺点

主机之间无法共享数据。
采用SAN架构组网时，光纤交换机，造价成本高

使用场景：
Docker容器、虚拟机磁盘存储分配。
日志存储。
文件存储。

文件存储

在这里插入图片描述

典型设备： FTP、NFS服务器
为了克服块存储文件无法共享的问题，所以有了文件存储。
在服务器上架设FTP与NFS服务，就是文件存储。

优点

造价低，随便一台机器就可以了。
方便文件共享。

缺点

读写速率低。
传输速率慢。

使用场景：
日志存储。
有目录结构的文件存储。

对象存储

为什么需要对象存储？

首先，一个文件包含了属性（术语叫metadata，元数据，例如该文件的大小、修改时间、存储路径等）以及内容（以下简称数据）。

例如FAT32这种文件系统，存储过程是链表的形式。

而对象存储则将元数据独立了出来，控制节点叫元数据服务器（服务器+对象存储管理软件），里面主要负责存储对象的属性（主要是对象的数据被打散存放到了那几台分布式服务器中的信息），而其他负责存储数据的分布式服务器叫做OSD，主要负责存储文件的数据部分。当用户访问对象，会先访问元数据服务器，元数据服务器只负责反馈对象存储在哪些OSD，假设反馈文件A存储在B、C、D三台OSD，那么用户就会再次直接访问3台OSD服务器去读取数据。

这时候由于是3台OSD同时对外传输数据，所以传输的速度就加快了。当OSD服务器数量越多，这种读写速度的提升就越大，通过此种方式，实现了读写快的目的。

另一方面，对象存储软件是有专门的文件系统的，所以OSD对外又相当于文件服务器，那么就不存在文件共享方面的困难了，也解决了文件共享方面的问题。

所以对象存储的出现，很好地结合了块存储与文件存储的优点。

优点

具备块存储的读写高速。
具备文件存储的共享等特性。

使用场景： (适合更新变动较少的数据)
图片存储。
视频存储。

ceph对象存储的过程

在这里插入图片描述
无论使用哪种存储方式（对象、块、挂载），存储的数据都会被切分成对象（Objects）。Objects size大小可以由管理员调整，通常为2M或4M。每个对象都会有一个唯一的OID，由ino与ono生成，虽然这些名词看上去很复杂，其实相当简单。ino即是文件的File ID，用于在全局唯一标示每一个文件，而ono则是分片的编号。比如：一个文件FileID为A，它被切成了两个对象，一个对象编号0，另一个编号1，那么这两个文件的oid则为A0与A1。Oid的好处是可以唯一标示每个不同的对象，并且存储了对象与文件的从属关系。由于ceph的所有数据都虚拟成了整齐划一的对象，所以在读写时效率都会比较高。

但是对象并不会直接存储进OSD中，因为对象的size很小，在一个大规模的集群中可能有几百到几千万个对象。这么多对象光是遍历寻址，速度都是很缓慢的；并且如果将对象直接通过某种固定映射的哈希算法映射到osd上，当这个osd损坏时，对象无法自动迁移至其他osd上面（因为映射函数不允许）。为了解决这些问题，ceph引入了归置组的概念，即PG。

PG是一个逻辑概念，我们linux系统中可以直接看到对象，但是无法直接看到PG。它在数据寻址时类似于数据库中的索引：每个对象都会固定映射进一个PG中，所以当我们要寻找一个对象时，只需要先找到对象所属的PG，然后遍历这个PG就可以了，无需遍历所有对象。而且在数据迁移时，也是以PG作为基本单位进行迁移，ceph不会直接操作对象。

对象时如何映射进PG的？还记得OID么？首先使用静态hash函数对OID做hash取出特征码，用特征码与PG的数量去模，得到的序号则是PGID。由于这种设计方式，PG的数量多寡直接决定了数据分布的均匀性，所以合理设置的PG数量可以很好的提升CEPH集群的性能并使数据均匀分布。

最后PG会根据管理员设置的副本数量进行复制，然后通过crush算法存储到不同的OSD节点上（其实是把PG中的所有对象存储到节点上），第一个osd节点即为主节点，其余均为从节点。

拓展（ceph名词解释）

OSD

对象存储（Object-based Storage)是一种新的网络存储架构，基于对象存储技术的设备就是对象存储设备（Object-based Storage Device）简称OSD。总体上来讲，对象存储综合了NAS和SAN的优点，同时具有SAN的高速直接访问和NAS的分布式数据共享等优势，提供了具有高性能、高可靠性、跨平台以及安全的数据共享的存储体系结构。