记一次counterservice 故障处理及恢复的时间线

梳理一个timeline

预估20亿,单端口阀值约5亿和业务沟通现在总17亿,出现个别端口达到容量瓶颈,出现滚表现象

  1. 预计7:17 收到11546,11547 报警。 磁盘报警10.75.22.238:/data1 = 100.00% , 磁盘满发现是11547 dump文件导致实例crash
  • 临时删除11547 dump文件
  • 尝试启动 11546 实例,失败原因aof损坏,修复aof文件失败
  • 8:26  进行切主:查找从库,dsp,dpadmin 均特别卡
  • 9:00 变更完成主从但是由于dpamdin问题并未上线,但以周知相关业务负责同学切主库域名
  • 10:35变更115456,11547主库域名
  1. 11:40 业务反馈一个端口数据为空,联系同事一起分析处理

  2. 滚表数据落地磁盘,和业务沟通后用rdb恢复,损失小部分数据 输入图片说明

  3. 需要用统一的rdb文件数据传输,然后域名操作不方便

  4. 13:12 11547 恢复

  5. 14:25 反馈11561 端口 和11547 端口 输入图片说明

  6. 选用一个新主 将table num 调整到4 ,然后其他从库以新主的rdb 为主恢复

  7. 15:18 左右恢复

####总结后续改善建议,并落地实施

  1. 2个table,使用率85%,滚表dump数据,计算方式修正报警
  2. 添加不再dump机制
  3. 统计所有的2个table的counterservice实例,并确定是不是需要滚表; 临时处理解决方式:滚动率调高—》或者扩容 ,升级

转载于:https://my.oschina.net/tingting1127723365/blog/846445

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值