关于ceph osd auth keyring

最新推荐文章于 2024-07-11 13:31:23 发布

手持钩笼引天下

最新推荐文章于 2024-07-11 13:31:23 发布

阅读量459

点赞数 4

文章标签： ceph 运维

本文链接：https://blog.csdn.net/system_zhazha/article/details/137619066

版权

文章讨论了在Ceph集群中，如何通过避免删除osd并保持osdtree结构不变，来优化硬盘更换流程，减少pg迁移时间。提出了一种方法：在更换硬盘后，仅进行临时挂载、配置文件恢复和激活，避免了繁琐的osdout、delete和pg回填过程。

摘要由CSDN通过智能技术生成

概述

关于osd auth 认证

如果在删除osd时，id指定错误，错误执行了ceph auth del osd.x，此时osd工作目录还在，osd重启会因为认证无法启动。只要重新添加该osd auth认证即可

ceph auth add osd.{osd-num} osd 'allow *' \
	mon 'allow profile osd' \
	mgr 'allow profile osd' \
	-i /var/lib/ceph/osd/ceph-{osd-num}/keyring

上述原理和命令对于各位运维来说应该非常熟悉，不算新鲜命令，不做展开。

上述命令从另一个角度，也可以理解为，为拥有完成结构的osd，添加auth认证，从而可以加入集群。
在ceph运维中最常见的一种场景：换盘重建
假设一个大规模集群，出现硬盘损坏，以往的方案：

此步骤没有任何问题，确实可以完成硬盘重建。但对集群来说，pg状态经历了至少3次变化

也就是说完全删除osd，再重新create的方法，会引起额外的pg迁移和恢复时间，且在集群规模很大，pg很多时，很多pg要重新参与计算分布

能否有一种方式优化呢？

显然可以，只要不进行out和删除osd的操作，保持osd tree结构没有发生过变化，就可以优化这个过程。
将旧盘拔下后，直接插上新盘。以一个init.conf（结构和ceph.conf类似，cluster为空或者补齐0）正常zap、prepare

ceph-volume lvm zap ......
ceph-volume lvm prepare --cluster init .......

挂载临时temp，

然后将旧的osd的几个配置文件恢复，分别是：

恢复完成后，umount掉temp临时目录
进行activate激活即可，新硬盘会直接承担旧硬盘的osdid，并承担原有工作。

关注