ceph
hailwind
就职于犀思云计算科技有限公司,任CTO职位,负责云计算业务的技术管理工作。对分布式系统设计、计算虚拟化、网络虚拟化、分布式存储等领域有浓厚的兴趣和丰富的实践经验。
展开
-
一个ceph-osd异常DOWN掉的原因分析
今天早上,运维的兄弟报告说,ceph分布式存储集群同时有3个OSD异常DOWN掉。因为CEPH集群是三份数据存储的,所以对业务没有什么太大的影响,所以等有空再查根本原因。同时报告了有一台物理机当机了,做了重启恢复的操作。有空的时候对问题进行了分析,同事进行了预查,发现如下:1、在osd down掉的一段时间,所有的CEPH节点的网络流量都高上去了。2、3个OSD down掉原创 2015-09-11 18:20:32 · 11063 阅读 · 2 评论 -
ceph 修复monitor 坏掉过多时的问题
如果ceph中的monitor总共有6个(不要问我为什么是6个,它就成了6个),现在DOWN掉了3个,并且无法恢复了,那么ceph等操作会被阻塞,修复方法:先把剩下的三个关闭,然后在其中一个好的上面执行:ceph-mon -i mon2 --extract-monmap /tmp/monmapmonmaptool /tmp/monmap --rm mon3ceph-mon -i原创 2016-01-28 18:59:38 · 1007 阅读 · 0 评论