Ceph recover的速度控制

最新推荐文章于 2024-04-17 06:50:16 发布

dibeifu2462

最新推荐文章于 2024-04-17 06:50:16 发布

阅读量1.2k

点赞数 1

文章标签： awk 前端 ViewUI

原文链接：http://www.cnblogs.com/gzxbkk/p/7704464.html

版权

本文探讨了在Ceph集群中如何通过调整参数控制磁盘恢复过程，以避免影响前端业务。重点研究了osd_recovery_max_active和osd_recovery_sleep参数，分析了不同设置对磁盘读写速度和迁移速度的影响，旨在减少磁盘压力，防止OSD崩溃。

摘要由CSDN通过智能技术生成

前言

磁盘损坏对于一个大集群来说，可以说是必然发生的事情，即使再小的概率，磁盘量上去，总会坏那么几块盘，这个时候就会触发内部的修复过程，修复就是让不满足副本要求的PG，恢复到满足的情况

一般是踢掉坏盘和增加新盘会触发这个修复过程，或者对磁盘的权重做了修改，也会触发这个迁移的过程，本篇是用剔除OSD的方式来对这个修复的控制做一个探索

大部分场景下要求的是不能影响前端的业务，而加速迁移，忽略迁移影响不在本篇的讨论范围内，本篇将用数据来说明迁移的控制

本次测试在无读写情况下进程的

几个需要用到脚本和命令

磁盘本身的大概速度

[root@lab8106 ~]# ceph tell osd.0 bench
{
          
    "bytes_written": 1073741824,
 "blocksize": 4194304,
 "bytes_per_sec": 102781897
}

得到的结果为102MB/s

获取osd上pg迁移的对象的脚本

OSD的日志需要开启到10，这里采取动态开启的方式

ceph daemon osd.0 config set debug_osd 10

日志解析的脚本

cat  /var/log/ceph/ceph-osd.0.log | awk  '$7=="finish_recovery_op"&&$8=="pg[0.15(" {sub(/.*/,substr($2,1,8),$2); print $0}'|awk '{a[$1," ",$2]++}END{for (j in a) print j,a[j]|"sort -k 1"}'

获取osd.0上的pg0.15的迁移速度
运行后的效果如下：

2017-08-08 17:14:33 1
2017-08-08 17:14:34 2
2017-08-08 17:14:35 2
2017-08-08 17:14:36 1

最低0.47元/天解锁文章