监控组件_分布式缓存组件故障分析及监控优化

本文介绍了PaaS平台分布式缓存组件的运维情况,通过一次故障案例分析了网络波动导致的主从切换问题。优化后的巡检方案增加了Redis主从状态检测和服务可用性探测,以加快故障定位和修复速度,提高服务稳定性。
摘要由CSDN通过智能技术生成
背景

PaaS平台缓存组件采用电信集体自研分布式缓存ctg-cache产品,部署在“天翼云”资源池,为多个能力中心提供服务,如外部客户统一认证平台(UAM)、CPCP增量(CPC1)、CPCP工作台(CPC1WEB)、综合资源(RM)、销售门户,计费等,目前支撑大约为每分钟10万的业务访问缓存请求。CRM集群部署了10组Redis实例节点,以及4个“接入机”节点,如表一、图一所示。

80d492ab39b69b2ec9d3baff81c5cd06.png

表格 1  CRM集群节点信息

91d32aa8717d2ad83f4e79ebc4d1cb63.png

图表 1 分布式缓存部署拓扑图

IT运维与安全体系的落地关键在于解决问题的快慢,归根结底是客户感知,巡检是必要手段之一。通过巡检,一方面可检查服务可用性,保障服务的平稳运行,另一方面可发现潜在的隐患,及时做出对应的整改措施。我们对于巡检的不断优化和改善,就是为了更快地修复、杜绝和预防故障,达成客户能够获得良好的感知的最终目的。

目前PaaS平台组主要通过监控告警和定期巡检来保障分布式缓存的服务健康性。分布式缓存实行每日巡检制,巡检主要分为3个时间段,第一个时间段是早上7点到7

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值