分布式监控系统WGCLOUD故障自愈能力说明

WGCLOUD是国人开源的优秀运维监控系统,轻巧实用,易上手。

对比普罗米修斯、zabbix等老牌运维工具,虽然不如这些工具全面成熟,但对我们DBA、研发、运维、测试来说,WGCLOUD可以很快安装好,不用模板脚本,基本就是解压后启动,就开始全自动监控主机各种指标了。另外WGCLOUD迭代速度非常快,社区也非常活跃,用户增长很快。

好了,言归正传,说下WGCLOUD的自愈能力是什么意思。

WGCLOUD监控架构是一个server对应N个agent

如果server因为某些原因停止了一段时间(超过12小时)后,agent在尝试联系server超过12小时后,不再上报数据,并在日志里会打印"防篡改校验失败大于10次,不再上报数据"这样的信息。

在12小时后,我们再重新启动server,这个时候显示agent都已经下线了。

但是不用担心,agent会在2小时内陆续恢复上线,觉得慢的话也可以手动重启下agent,会立即上线。

如果因为守护进程端口不通造成的agent防篡改校验失败,当守护进程端口正常开放后,也不用重启agent,也一样会在2小时候内陆续恢复上线。

Linux系统中查询分布式运维监控系统WGCLOUD是否安装,可以通过查找其相关的安装包、进程、配置文件或服务状态来进行判断。以下是几种可能的查询方法: 1. 查找安装包: 如果WGCLOUD是通过包管理器安装的(例如使用APT的Debian/Ubuntu或使用YUM的CentOS/RHEL),可以尝试搜索已安装的软件包列表来查找WGCLOUD相关的信息。命令如下: ``` dpkg -l | grep wgc* ``` 或者对于使用YUM的系统: ``` yum list installed | grep wgc* ``` 2. 查找进程: 检查系统进程列表,查看是否有WGCLOUD的服务进程在运行。可以使用以下命令: ``` ps aux | grep wgc* ``` 这个命令会列出包含“wgc”字符串的所有进程,如果WGCLOUD正在运行,相关的进程应该会显示出来。 3. 查找配置文件和服务状态: 如果WGCLOUD提供了配置文件或者有服务管理脚本,可以检查配置文件的存在以及服务状态来判断。例如,如果WGCLOUD是一个服务,可以使用如下命令检查其状态: ``` systemctl status wgc* ``` 或者检查其服务脚本是否存在。 4. 查找安装目录: 如果WGCLOUD有固定的安装目录,可以直接检查这个目录是否存在。例如,如果安装在`/usr/local`下,则可以使用: ``` ls /usr/local/wgc* ``` 5. 使用WGCLOUD提供的命令行工具: 如果WGCLOUD提供了特定的命令行工具或查询接口,可以尝试使用这些工具来检查安装状态。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值