Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。
分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连 。
ceph规定存储服务器集群之间存储数据速度不可大于0.5秒。
开发目标:
- 可轻松扩展到数 PB 容量
- 支持多种工作负载的高性能(每秒输入/输出操作[IOPS]和带宽)
- 高可靠性
Ceph 生态系统架构可以划分为四部分:
- Clients:客户端(数据用户)
- cmds:Metadata server cluster,元数据服务器(缓存和同步分布式元数据)
- cosd:Object storage cluster,对象存储集群(将数据和元数据作为对象存储,执行其他关键职能)
- cmon:Cluster monitors,集群监视器(执行监视功能)
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。就是描述数据的数据。
实验:CEPH
实验环境:
• 创建1台客户端虚拟机
• 创建3台存储集群虚拟机
• 配置主机名、IP地址、YUM源
• 修改所有主机的主机名
• 配置无密码SSH连接
• 配置NTP时间同步
• 创建虚拟机磁盘
拓扑结构:
步骤一:安装前准备
1)给每台虚拟机添加一块光盘,然后添加上ceph10.iso镜像,接着挂载到root下的ceph目录下。
2)配置无密码连接在,再node1上操作,
[root@node1 ~]# ssh-keygen -f /root/.ssh/id_rsa -N ''
# -f 后面跟密钥的文件名称(希望创建密钥到哪个文件)
#-N ''代表不给密钥配置密钥(不能给密钥配置密码)
[root@node1 ~]# for i in 10 11 12 13
do
ssh-copy-id 192.168.4.$i
done
3)修改/etc/hosts并同步到所有主机。
[root@node1 ~]# vim /etc/hosts #修改文件,手动添加如下内容(不要删除文件原有内容)
... ...
192.168.4.10 client
192.168.4.11 node1
192.168.4.12 node2
192.168.4.13 node3
将/etc/hosts文件拷贝给所有其他主机(client、node1、node2、node3)
[root@node1 ~]# for i in client node1 node2 node3
do
scp /etc/hosts $i:/etc/
done
4)修改所有节点都需要配置YUM源,并同步到所有主机。
[root@node1 ~]# vim /etc/yum.repos.d/ceph.repo #新建YUM源配置文件,内容如下
[mon]
name=mon
baseurl=file:///ceph/MON
gpgcheck=0
[osd]
name=osd
baseurl=file:///ceph/OSD
gpgcheck=0
[tools]
name=tools
baseurl=file:///ceph/Tools
gpgcheck=0
[root@node1 ~]# for i in client node1 node2 node3
do
scp /etc/yum.repos.d/ceph.repo $i:/etc/yum.repos.d/
done
5)给所有节点安装ceph相关软件包
[root@node1 ceph-cluster]# for i in node1 node2 node3
do
ssh $i "yum -y install ceph-mon ceph-osd ceph-mds ceph-radosgw"
done
6)Client主机配置NTP服务器
[root@client ~]# yum -y install chrony
[root@client ~]# vim /etc/chrony.conf
allow 192.168.4.0/24 #修改26行
local stratum 10 #修改29行(去注释即可)
[root@client ~]# systemctl restart chronyd
7)node1,node2,node3修改NTP客户端配置。
[root@node1 ~]# vim /etc/chrony.conf
server 192.168.4.10 iburst #配置文件第二行,手动添加一行新内容
[root@node1 ~]# systemctl restart chronyd
[root@node1 ~]# chronyc sources -v #查看同步结果,应该是^*
[root@node2 ~]# vim /etc/chrony.conf
server 192.168.4.10 iburst #配置文件第二行,手动添加一行新内容
[root@node2 ~]# systemctl restart chronyd
[root@node2 ~]# chronyc sources -v #查看同步结果,应该是^*
[root@node3 ~]# vim /etc/chrony.conf
server 192.168.4.10 iburst #配置文件第二行,手动添加一行新内容
[root@node3 ~]# systemctl restart chronyd
[root@node3 ~]# chronyc sources -v #查看同步结果,应该是^*
步骤二:部署ceph集群
• 安装部署工具ceph-deploy
• 创建ceph集群
• 准备日志磁盘分区
• 创建OSD存储空间
• 查看ceph状态,验证
安装部署软件ceph-deploy
1)在node1安装部署工具,学习工具的语法格式。
[root@node1 ~]# yum -y install ceph-deploy
[root@node1 ~]# ceph-deploy --help
[root@node1 ~]# ceph-deploy mon --help
2)创建目录(目录名称可以任意,推荐与案例一致)
[root@node1 ~]# mkdir ceph-cluster
[root@node1 ~]# cd ceph-cluster/
部署Ceph集群
创建MON
1)创建Ceph集群配置,在ceph-cluster目录下生成Ceph配置文件(ceph.conf)。
在ceph.conf配置文件中定义monitor主机是谁。
[root@node1 ceph-cluster]# ceph-deploy new node1 node2 node3
Start deploying a new cluster, and write a CLUSTER.conf and keyring for it.
2)初始化所有节点的mon服务,也就是启动mon服务。
拷贝当前目录的配置文件到所有节点的/etc/ceph/目录并启动mon服务。
[root@node1 ceph-cluster]# ceph-deploy mon create-initial
#配置文件ceph.conf中有三个mon的IP,ceph-deploy脚本知道自己应该远程谁
3) 在每个node主机查看自己的服务(注意每台主机服务名称不同)
[root@node1 ceph-cluster]# systemctl status ceph-mon@node1
[root@node2 ~]# systemctl status ceph-mon@node2
[root@node3 ~]# systemctl status ceph-mon@node3
#备注:管理员可以自己启动(start)、重启(restart)、关闭(stop),查看状态(status).
#提醒:这些服务在30分钟只能启动3次,超过就报错.
#StartLimitInterval=30min
#StartLimitBurst=3
#在这个文件中有定义/usr/lib/systemd/system/ceph-mon@.service
#如果修改该文件,需要执行命令# systemctl daemon-reload重新加载配置
4)查看ceph集群状态(现在状态应该是health HEALTH_ERR)
[root@node1 ceph-cluster]# ceph -s
常见错误及解决方法(非必要操作,有错误可以参考):
如果提示如下错误信息:(如何无法修复说明环境准备有问题,需要重置所有虚拟机)
[node1][ERROR ] admin_socket: exception getting command descriptions: [Error 2] No such file or directory
解决方案如下(仅在node1操作):
1)先检查自己的命令是否是在ceph-cluster目录下执行的!!!!如果确认是在该目录下执行的create-initial命令,依然报错,可以使用如下方式修复。
[root@node1 ceph-cluster]# vim ceph.conf #文件最后追加以下内容
public_network = 192.168.4.0/24
2)修改后重新推送配置文件:
[root@node1 ceph-cluster]# ceph-deploy --overwrite-conf config push node1 node2 node3
[root@node1 ceph-cluster]# ceph-deploy --overwrite-conf mon create-initial
3)如果还出错,可能是准备实验环境时配置的域名解析和主机名不一致!!!
创建OSD
1) 初始化清空磁盘数据(仅node1操作即可)。
初始化磁盘,将所有磁盘分区格式设置为GPT格式(根据实际情况填写磁盘名称)。
[root@node1 ceph-cluster]# ceph-deploy disk zap node1:sdb node1:sdc
[root@node1 ceph-cluster]# ceph-deploy disk zap node2:sdb node2:sdc
[root@node1 ceph-cluster]# ceph-deploy disk zap node3:sdb node3:sdc
#相当于ssh 远程node1,在node1执行parted /dev/sdb mktable gpt
#其他主机都是一样的操作
#ceph-deploy是个脚本,这个脚本会自动ssh远程自动创建gpt分区
2)创建OSD存储空间(仅node1操作即可)
重要:很多同学在这里会出错!将主机名、设备名称输入错误!!!
远程所有node主机,创建分区,格式化磁盘,挂载磁盘,启动osd服务共享磁盘。
[root@node1 ceph-cluster]# ceph-deploy osd create node1:sdb node1:sdc
#每个磁盘都会被自动分成两个分区;一个固定5G大小;一个为剩余所有容量
#5G分区为Journal日志缓存;剩余所有空间为数据盘。
[root@node1 ceph-cluster]# ceph-deploy osd create node2:sdb node2:sdc
[root@node1 ceph-cluster]# ceph-deploy osd create node3:sdb node3:sdc
提醒:ceph-deploy是个脚本,脚本会自动创建分区、格式化、挂载!
3)在三台不同的主机查看OSD服务状态,可以开启、关闭、重启服务。
[root@node1 ~]# systemctl status ceph-osd@0
[root@node2 ~]# systemctl status ceph-osd@2
[root@node3 ~]# systemctl status ceph-osd@4
#备注:管理员可以自己启动(start)、重启(restart)、关闭(stop),查看状态(status).
#提醒:这些服务在30分钟只能启动3次,超过就报错.
#StartLimitInterval=30min
#StartLimitBurst=3
#在这个文件中有定义/usr/lib/systemd/system/ceph-osd@.service
#如果修改该文件,需要执行命令# systemctl daemon-reload重新加载配置
常见错误及解决方法(非必须操作)。
使用osd create创建OSD存储空间时,如提示下面的错误提示:
[ceph_deploy][ERROR ] RuntimeError: bootstrap-osd keyring not found; run ‘gatherkeys’
可以使用如下命令修复文件,重新配置ceph的密钥文件:
[root@node1 ceph-cluster]# ceph-deploy gatherkeys node1 node2 node3
验证测试
- 查看集群状态。
[root@node1 ~]# ceph -s
[root@node1 ~]# ceph osd tree
2)常见错误(非必须操作)。
如果查看状态包含如下信息:
health: HEALTH_WARN
clock skew detected on node2, node3…
clock skew表示时间不同步,解决办法:请先将所有主机的时间都使用NTP时间同步!!!
Ceph要求所有主机时差不能超过0.05s,否则就会提示WARN。
如果状态还是失败,可以尝试执行如下命令,重启所有ceph服务:
[root@node1 ~]# systemctl restart ceph.target
案例3:创建Ceph块存储
• 创建块存储镜像
• 客户端映射镜像
• 删除镜像
创建镜像
1)查看存储池,默认存储池名称为rbd。
[root@node1 ~]# ceph osd lspools
0 rbd,
#查看结果显示,共享池的名称为rbd,这个共享池的编号为0,英语词汇:pool(池塘、水塘)
2)创建镜像、查看镜像
[root@node1 ~]# rbd create demo-image --image-feature layering --size 10G
#创建demo-image镜像,这里的demo-image创建的镜像名称,名称可以为任意字符。
#size可以指定镜像大小
[root@node1 ~]# rbd create rbd/jacob --image-feature layering --size 10G
#在rbd池中创建名称为jacob的镜像(rbd/jacob),镜像名称可以任意
#--image-feature参数指定我们创建的镜像有哪些功能,layering是开启COW功能。
#提示:ceph镜像支持很多功能,但很多是操作系统不支持的,我们只开启layering。
[root@node1 ~]# rbd list #列出所有镜像
[root@node1 ~]# rbd info demo-image #查看demo-image这个镜像的详细信息
动态调整
1)扩容容量
[root@node1 ~]# rbd resize --size 15G jacob
#调整jacob镜像的大小,jacob是镜像的名称,size指定扩容到15G
[root@node1 ~]# rbd info jacob
2)缩小容量(缩小容量要先allow一下)
[root@node1 ~]# rbd resize --size 7G jacob --allow-shrink
#英文词汇:allow(允许),shrink(缩小)
[root@node1 ~]# rbd info jacob
#查看jacob这个镜像的详细信息(jacob是前面创建的镜像)
通过KRBD访问
Linux内核可用直接访问Ceph块存储,KVM可用借助于librbd访问Ceph块存储。
1)客户端通过KRBD访问
#客户端需要安装ceph-common软件包
#拷贝配置文件(否则不知道集群在哪)
#拷贝连接密钥(否则无连接权限)
[root@client ~]# yum -y install ceph-common
[root@client ~]# scp 192.168.4.11:/etc/ceph/ceph.conf /etc/ceph/
[root@client ~]# scp 192.168.4.11:/etc/ceph/ceph.client.admin.keyring /etc/ceph/
[root@client ~]# rbd map jacob #客户端访问映射服务器的jacob共享镜像
[root@client ~]# lsblk #查看结果(会多一块磁盘)
[root@client ~]# rbd showmapped #查看磁盘名和共享镜像名称的对应关系
id pool image snap device
0 rbd jacob - /dev/rbd0
2) 客户端格式化、挂载分区
[root@client ~]# mkfs.xfs /dev/rbd0 #格式化,格式为xfs
[root@client ~]# mount /dev/rbd0 /mnt/ #挂载(可以挂载到任意目录)
[root@client ~]# echo "test" > /mnt/test.txt #写入数据
步骤四:删除镜像
1) 客户端撤销磁盘映射
[root@client ~]# umount /mnt #卸载
[root@client ~]# rbd showmapped #查看磁盘名和共享镜像名称的对应关系
id pool image snap device
0 rbd jacob - /dev/rbd0
[root@client ~]# rbd unmap /dev/rbd0 #撤销磁盘映射
附加知识(如何删除某个OSD,下面的假设是删除osd.4)
ceph osd tree
ceph osd out osd.4
ceph osd tree
ceph -s
ceph osd crush remove osd.4
ceph auth del osd.4
ceph -s
ceph osd rm osd.4
最后要找到对应的主机,umount把osd.4对应的磁盘卸载