- 博客(22)
- 收藏
- 关注
原创 linux磁盘挂载之后,容量显示异常
linux磁盘挂载之后,容量显示异常问题现象:磁盘挂载之后,容量显示异常处理方法:ext4:resize2fs /dev/vdb1xfs:xfs_growfs /dev/vdb1
2021-10-20 09:58:20 2184 1
原创 k8s创建pod报错:Cannot set property TasksAccounting
问题现象:创建k8s pod的时,出现如下报错信息:Error syncing pod, skipping: failed to “StartContainer” for “POD” with RunContainerError: “runContainer: Error response from daemon: {“message”:“oci runtime error: container_linux.go:235: starting container process caused \“proc
2021-01-05 16:05:08 814 1
原创 k8s创建pod失败
k8s创建pod失败问题现象:kubectl describe pod static-web查看信息,显示如下:Error syncing pod, skipping: failed to “StartContainer” for “POD” with ErrImagePull: “image pull failed for registry.access.redhat.com/rhel7/pod-infrastructure:latest, this may be because there are
2021-01-05 15:51:50 932 1
原创 验证ETCD服务时报错
验证ETCD服务时报错故障现象:Error: client: etcd cluster is unavailable or misconfigured; error #0: client: endpoint http://etcd:2379 exceeded header timeout; error #1: dial tcp: lookup etcd: no such hosterror #0: client: endpoint http://etcd:2379 exceeded header
2020-12-30 21:50:08 3767 1
原创 Ceph集群定时Scrub
1、背景:Ceph集群会定时进行Scrub操作,在Ceph对接OpenStack的场景中,如果Ceph集群正在进行Scrub操作,会对Scrub的数据进行加锁,如果OpenStack使用Ceph作为后端存储的虚拟机此时也在访问该数据,就会导致OpenStack中使用Ceph作为后端存储的虚拟机可能会出现卡顿的现象。1)Scurb是什么?Scrub是Ceph集群副本进行数据扫描的操作,用以检测...
2019-09-28 10:01:42 658
原创 PG的定位和主要职责
在Ceph中,PG的定位或者说主要职责如下:1、作为存储池的基本组成单位,负责执行存储池所绑定的副本策略;2、以OSD作为单位,进行副本分布,将前端应用任何针对PG中原始数据的操作,转化为OSD本地对象存储所能理解的事务操作,并保证副本之间数据的强一致性。...
2019-09-28 09:43:11 352
原创 PG外部状态
Activating:Peering已经完成,PG正在等待所有PG实例同步并固化Peering的结果(info、Log等);Active:PG可以正常处理来自客户端的读写请求;Backfilling:PG正在执行Backfill,Backfill总是在Recovery完成之后进行的;Backfill-toofull:某个需要被Backfill的PG实例,其所在的OSD可用空间不足,Backf...
2019-09-27 16:16:47 331
原创 Ceph对可用存储空间的校验与控制
Ceph一共使用了四个配置对可用存储空间进行校验并实施控制,如下:mon_osd_full_ratio:集群中的任一OSD空间使用率大于等于此数值时,集群将被标记为Full,此时集群将停止接受来自客户端的写入请求;mon_osd_nearfull_ratio:集群中的任一OSD空间使用率大于等于此数值时,集群将会被标记为NearFull,此时集群将产生告警,并提示所有已经处于NearFull状...
2019-09-27 15:36:52 1023
原创 调整reweight
手动调整1、首先查看集群的空间利用率统计ceph osd df tree2、找到空间利用率较高的OSD,然后逐个进行调整ceph osd reweight {osd_numeric_id} {reweight}上述命令中各个参数含义如下:osd_numeric_id:OSD对应的数字IDreweight:待设置的OSD的reweight。reweight取值越小,将使更多的数据从对应...
2019-09-24 22:20:31 1267
原创 choose_total_tries和chooseleaf_descend_once理解
choose_total_tries为防止陷入死循环,需要对选择每个副本过程中的尝试次数进行限制,这个限制称为全局尝试次数(choose_total_tries);chooseleaf_descend_once同时,因为在容灾模式下,会产生递归调用,所以还需要限制产生递归调用时作为下一级输入的全局尝试次数,因为这个限制会导致递归调用时的全局尝试次数成倍增长,所以实现上采用一个布尔变量(cho...
2019-09-24 21:30:35 387
原创 编辑Crush map
编辑Crush map1、获取 Crush map大部分情况下创建集群成功后,对应的Crush map已经由系统自动生成,可以通过如下命令获取:ceph osd getcrushmap -o {compiled-crushmap-filename}2、反编译Crush map执行命令:crushtool -d {compiled-crushmap-filename} -o {decom...
2019-09-24 21:13:15 305
原创 rbd删除image报:rbd: error: image still has watchers
1、解决思路:遇到有image无法删除的情况,一般有以下两种原因:a、由于image下有快照信息,只需要先将快照信息删除,然后就可以删除该image了;b、该image正在被另一个客户端访问,具体表现为该image中有watcher。如果该客户端异常,那么就会出现无法删除该image的情况;对于第一种情况,只需要删除快照即可解决,下面介绍第二种情况的解决方法。2、解决方案:查看当前im...
2018-10-30 14:31:11 1392
原创 查看rbd块实际占用的空间
使用如下命令查看:[root@ceph-1 ~]# rbd diff volume -p abc | awk '{ SUM += $2 } END { print SUM/1024/1024 " MB" }'0 MB
2018-10-30 13:53:52 1463
原创 测试:找出在ceph中存放的数据
1、创建测试文件test.txtecho "hello world" > test.txt2、将文件写入到pool中:rados -p abc put object1 test.txtrados ls -p abc3、查看object1的pg mapceph osd map abc object14、查看三个OSD的信息,主要看host信息,即OSD在哪个机器上。cep...
2018-10-30 11:25:07 1125
原创 由于object大小与oi size大小不一致导致pg inconsistent
1、问题现象:ceph -s 集群出现pg inconsistent错误,ceph pg repair无法修复,查看日志,报错信息如下:log [ERR] : 3.f80 repair 1 missing, 0 inconsistent objectslog [ERR] : 3.f80 repair 2 errors, 1 fixedlog [ERR] : deep-scrub 3.f8...
2018-10-29 17:58:15 1410
原创 Ceph osd启动报错osd init failed (36) File name too long
1、问题现象:在Ceph的OSD节点上,启动OSD进程失败,在其日志中看到如下报错信息:2017-02-14 16:26:13.558535 7fe3883f58c0 0 filestore(/var/lib/ceph/osd/ceph-1) mount: enabling WRITEAHEAD journal mode: checkpoint is not enabled2017-02-...
2018-10-29 17:46:51 644
原创 14 requests are blocked > 32 sec; 11 osds have slow requests
1、问题现象:ceph -sHEALTH_WARN 14 requests are blocked > 32 sec; 11 osds have slow requests2、问题分析:ceph health detail 查看有哪些OSD或者PGs卡住。HEALTH_WARN 14 requests are blocked > 32 sec; 11 osds have...
2018-10-29 17:36:45 2989
原创 openstack关闭安全组(网络端口)的限制
1、查看用户的项目IDopenstack project list | grep ucs_project2、查看该用户的安全组IDopenstack security group list | grep 0db3f2e41e024bebad661f785eec3af20db3f2e41e024bebad661f785eec3af2 为该用户的项目ID3、查找该用户的主机I...
2018-09-26 18:16:08 5020
原创 ceph数据recovery配置策略
1、背景在ceph集群中,如果ceph集群出现OSD的out或者in(增加、删除、上线、下线OSD等情况),最终都会导致ceph集群中的数据迁移及数据重建,数据迁移及重建会占用一部分网络带宽及磁盘带宽,此时就可能导致出现block(阻塞)现象。2、场景场景一:优先保证recovery带宽;在对数据安全性要求比较高的场景下,为了保证数据副本的完整性以及快速恢复存储集群的健康,会优先保证数据恢...
2018-09-26 18:04:14 4448
原创 使用ceph-ansible完成ceph L版本的部署
1、配置/etc/hosts文件vim /etc/hosts2、配置yum源,保证部署过程中能够安装ceph,可以先验证一下yum源是否能够使用yum -y install ceph3、安装ceph-ansible ansible及添加秘钥互信ssh-keygen -t rsassh-copy-id root@主机名安装ansibleyum install ansible -...
2018-09-26 17:55:36 2673
转载 ceph为pool(abc)创建快照报错:Error EINVAL: pool abc is in unmanaged snaps mode
ceph为pool(abc)创建快照报错:Error EINVAL: pool abc is in unmanaged snaps mode1、问题现象:为pool(abc)创建快照时,报如下报错:[root@ceph-1 ~]# ceph osd pool mksnap abc snapError EINVAL: pool abc is in unmanaged snaps mode...
2018-09-26 11:47:16 1329
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人