大数据平台监控(二):Ganglia与Nagios的整合

本文介绍了如何将Ganglia和Nagios整合以实现大数据平台的全面监控。Ganglia专注于实时性能监控,而Nagios擅长问题报警。通过Nagios调用Ganglia接口,当指标超出阈值时触发报警。文章详细阐述了整合过程,包括修改配置文件、脚本及端口设置,以确保Nagios能从Ganglia获取监控数据。
摘要由CSDN通过智能技术生成

基本介绍

Ganglia:Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

 

Nagios:Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

 

架构

Ganglia的优势在于实时监控集群中的机器的各项指标,比如cpu,内存,磁盘,温度等数据,汇总成成各种图形化界面,并提供接口可供调用数据。而在出现问题的时候报警提示功能,相对较弱。

Nagios的优势在于出现问题之时可以提供强大的报警提示功能,但是在实时监控上,功能较弱,即使使用NRPE本地插件也不能提供强大的机器监控。

在集群运维中,有两种方式,第一种,当问题出现的时候能够得到报警提示,运维人员能够迅速出击解决问题,将损失减少到最少。第二种,在问题出现之前,找到可能出现的问题,解决问题,避免问题出现。

因此Nagios适合第一种场景,Ganglia适合第二种场景,两者结合能有效的解决各种场景。当然还有其他的监控报警软件,比如Monitorix,NetXMS,cacti,Zabbix等。

这里,我们选择最成熟的Ganglia和Nagios。


环境介绍

1.      集群中已经安装了Ganglia(安装过程可以参考我的上一篇博客http://blog.csdn.net/shifenglov/article/details/40587527)

2.      集群中已经安装了Nagios(安装过程可以参考这篇博客http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html

 

安装思路

通过Nagios调用Ganglia的接口,获取整个集群的监控指标,如果超过设定的报警阀值,则予以报警提示。

 

 

安装过程

1.      复制check_ganglia.py脚本到nagios的执行目录中

如果有源码,则check_gangl

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值