nagios监控使用方法_使用Nagios监控企业集群

nagios监控使用方法

第1部分的回顾

数据中心在增长,行政人员在减少,因此需要用于计算资源的高效监控工具。 本系列的第1部分讨论了一起使用Ganglia和Nagios的好处,然后向您展示了如何使用自制的监视脚本安装和扩展Ganglia。

回顾一下第1部分中监视的多个定义(取决于违规者和推断者):

  • 如果您正在集群上运行应用程序,您会认为:“我的工作什么时候运行?什么时候完成?与上次相比,它的性能如何?”
  • 如果您是网络运营中心的运营商,您会认为:“我们何时会看到红灯表示需要修复某些问题并进行服务呼叫?”
  • 如果您是系统工程团队的一员,您会认为:“我们的机器性能如何?所有服务是否正常运行?我们看到了什么趋势,以及如何更好地利用我们的计算资源?”

您可以找到用于精确监视要监视的代码, 并且该代码可以是开源的。 当您尝试实施安装并摸索出适合您的环境的配置时,使用开源监视工具最困难的部分就来了。 开源(和商业)监视工具的两个主要问题如下:

  1. 没有工具可以按照您想要的方式监视您想要的一切。
  2. 要使该工具完全按照您的要求在数据中心中运行,可能需要进行大量自定义。

Ganglia是一种监视数据中心的工具,并在高性能计算环境中大量使用(但它对其他环境(例如云​​,渲染场和托管中心)也很有吸引力)。 与Nagios作为警报机制的关注点相比,它更关注收集指标并随时间进行跟踪。 Ganglia曾经要求代理在每台主机上运行以从中收集信息,但是现在可以通过Ganglia的欺骗机制从几乎任何事物中获取指标。 Ganglia没有内置的通知系统,但是它旨在支持目标主机上的可伸缩内置代理。

阅读第1部分之后,您可以安装Ganglia,并回答不同用户群体倾向于提出的监视问题。 您还可以配置基本的Ganglia设置,使用Python模块扩展IPMI(智能平台管理接口)的功能,并使用Ganglia主机欺骗来监视IPMI。

现在,让我们看一下Nagios。

介绍Nagios

此部分向您展示如何安装Nagios并将Ganglia绑回其中。 我们将为Nagios添加两个功能,这些功能将帮助您监视标准群集,网格,云(或您最喜欢的用于扩展计算的流行词)的工作。 这两个功能都是关于:

  • 监控网络交换机
  • 监视资源管理器

在这种情况下,我们将监视TORQUE。 完成后,您将拥有一个框架来控制整个数据中心的监视系统。

Nagios和Ganglia一样,在HPC和其他环境中也被大量使用,但是Nagios更像是Ganglia的警报机制(它更侧重于收集和跟踪指标)。 Nagios以前仅轮询来自其目标主机的信息,但最近开发了插件,使其可以在那些主机上运行代理。 Nagios具有内置的通知系统。

现在,让我们安装Nagios并设置HPCLinux®集群的基线监视系统,以解决三种不同的监视角度:

  • 应用程序人员可以看到队列已满,并可以看到可用于运行作业的节点。
  • 可以向NOC发出系统故障警报或在Nagios Web界面上看到闪亮的红色错误指示灯。 如果节点出现故障或温度过高,也会通过电子邮件通知他们。
  • 系统工程师可以对数据进行图形处理,报告群集利用率,并就未来的硬件购置做出决策。

安装Nagios

Internet上已充分记录了使Nagios在您的计算机上运行的努力。 由于我倾向于在不同的环境中大量安装它,因此我编写了一个脚本来完成它。

首先,您需要下载两个软件包

  • Nagios(经过3.0.6版测试)
  • Nagios插件(经过1.4.13版测试)

附加组件包括:

  • Nagios事件日志,可用于监视Windows事件日志
  • NRPE,它提供了许多Ganglia功能

获取压缩包并将其放置在目录中。 例如,我在/ tmp中有以下三个文件:

  • nagios-3.0.6.tar.gz
  • nagios-plugins-1.4.13.tar.gz
  • naginstall.sh

清单1显示了naginstall.sh安装脚本:

清单1. naginstall.sh脚本
#!/bin/ksh

NAGIOSSRC=nagios-3.0.6
NAGIOSPLUGINSRC=nagios-plugins-1.4.13
NAGIOSCONTACTSCFG=/usr/local/nagios/etc/objects/contacts.cfg
NAGIOSPASSWD=/usr/local/nagios/etc/htpasswd.users
PASSWD=cluster
OS=foo

function buildNagiosPlug {

  if [ -e $NAGIOSPLUGINSRC.tar.gz ]
  then
    echo "found $NAGIOSPLUGINSRC.tar.gz  building and installing Nagios"
  else
    echo "could not find $NAGIOSPLUGINSRC.tar.gz in current directory."
    echo "Please run $0 in the same directory as the source files."
    exit 1
  fi
  echo "Extracting Nagios Plugins..."
  tar zxf $NAGIOSPLUGINSRC.tar.gz
  cd $NAGIOSPLUGINSRC
  echo "Configuring Nagios Plugins..."
  if ./configure --with-nagios-user=nagios --with-nagios-group=nagios
      -prefix=/usr/local/nagios > config.LOG.$$ 2>&1
  then
    echo "Making Nagios Plugins..."
    if make -j8 > make.LOG.$$ 2>&1
    then
      make install > make.LOG.$$ 2>&1
    else
      echo "Make failed of Nagios plugins.  See $NAGIOSPLUGINSRC/make.LOG.$$"
      exit 1
    fi
  else
    echo "configure of Nagios plugins failed.  See config.LOG.$$"
    exit 1
  fi
  echo "Successfully built and installed Nagios Plugins!"
  cd ..

}

function buildNagios {
  if [ -e $NAGIOSSRC.tar.gz ]
  then
    echo "found $NAGIOSSRC.tar.gz  building and installing Nagios"
  else
    echo "could not find $NAGIOSSRC.tar.gz in current directory."
    echo "Please run $0 in the same directory as the source files."
    exit 1
  fi
  echo "Extracting Nagios..."
  tar zxf $NAGIOSSRC.tar.gz
  cd $NAGIOSSRC
  echo "Configuring Nagios..."
  if ./configure --with-command-group=nagcmd > config.LOG.$$ 2>&1
  then
    echo "Making Nagios..."
    if make all -j8 > make.LOG.$$ 2>&1
    then
      make install > make.LOG.$$ 2>&1
      make install-init > make.LOG.$$ 2>&1
      make install-config > make.LOG.$$ 2>&1
      make install-commandmode > make.LOG.$$ 2>&1
      make install-webconf > make.LOG.$$ 2>&1
    else
      echo "make all failed.  See log:"
      echo "$NAGIOSSRC/make.LOG.$$"
      exit 1
    fi
  else
    echo "configure of Nagios failed.  Please read $NAGIOSSRC/config.LOG.$$ for details."
    exit 1
  fi
  echo "Done Making Nagios!"
  cd ..
}


function configNagios {
  echo "We'll now configure Nagios."
  LOOP=1
  while [[ $LOOP -eq 1 ]]
  do
    echo "You'll need to put in a user name.  This should be the person"
    echo "who will be receiving alerts.  This person should have an account"
    echo "on this server.  "
    print "Type in the userid of the person who will receive alerts (e.g. bob)> \c"
    read NAME
    print "What is ${NAME}'s email?> \c"
    read EMAIL
    echo
    echo
    echo "Nagios alerts will be sent to $NAME at $EMAIL"
    print "Is this correct? [y/N] \c"
    read YN
    if [[ "$YN" = "y" ]]
    then
      LOOP=0
    fi
  done
  if [ -r $NAGIOSCONTACTSCFG ]
  then
    perl -pi -e "s/nagiosadmin/$NAME/g" $NAGIOSCONTACTSCFG
    EMAIL=$(echo $EMAIL | sed s/\@/\\\\@/g)
    perl -pi -e "s/nagios\@localhost/$EMAIL/g" $NAGIOSCONTACTSCFG
  else
    echo "$NAGIOSCONTACTSCFG does not exist"
    exit 1
  fi

  echo "setting ${NAME}'s password to be 'cluster' in Nagios"
  echo "    you can change this later by running: "
  echo "    htpasswd -c $NAGIOSPASSWD $Name)'"
  htpasswd -bc $NAGIOSPASSWD $NAME cluster
  if [ "$OS" = "rh" ]
  then
    service httpd restart
  fi

}


function preNagios {

  if [ "$OS" = "rh" ]
  then
    echo "making sure prereqs are installed"
    yum -y install httpd gcc glibc glibc-common gd gd-devel perl-TimeDate
    /usr/sbin/useradd -m nagios
    echo $PASSWD | passwd --stdin nagios
    /usr/sbin/groupadd nagcmd
    /usr/sbin/usermod -a -G nagcmd nagios
    /usr/sbin/usermod -a -G nagcmd apache
  fi

}
function postNagios {
  if [ "$OS" = "rh" ]
  then
    chkconfig --add nagios
    chkconfig nagios on
    # touch this file so that if it doesn't exist we won't get errors
    touch /var/www/html/index.html
    service nagios start
  fi
  echo "You may now be able to access Nagios at the URL below:"
  echo "http://localhost/nagios"

}



if [ -e /etc/redhat-release ]
then
  echo "installing monitoring on Red Hat system"
  OS=rh
fi

# make sure you're root:
ID=$(id -u)
if [ "$ID" != "0" ]
then
  echo "Must run this as root!"
  exit
fi

preNagios
buildNagios
buildNagiosPlug
configNagios
postNagios

运行脚本./naginstall.sh

该代码在Red Hat系统上有效,并且如果您已安装本系列第1部分中提到的所有依赖项,则该代码应运行。 运行naginstall.sh时,系统会提示您输入Nagios应该向其发送警报的用户。 您稍后可以添加其他人。 大多数组织都有邮件别名,该别名将发送给组中的人员。

如果您在安装时遇到问题,请查看Nagios网页(请参阅参考资料中的链接)并加入邮件列表。 以我的经验,大多数与Nagios和Ganglia一样成功的软件包都相对容易安装。

配置Nagios

因此,让我们假设该脚本对您有用,并且您已完美安装了所有内容。 然后,当脚本成功退出时,您应该能够打开Web浏览器并看到正在监视您自己的本地主机(如图1所示):

图1.屏幕显示了您正在监视的本地主机
屏幕显示您正在监视的本地主机

通过单击服务详细信息 ,您可以看到我们正在监视本地计算机上的多个服务(例如Ping,HTTP,负载,用户等)。 默认情况下已配置。

让我们研究称为Root Partition的服务。 根分区已满时,此服务会提醒您。 通过检查安装时生成的配置文件,您可以全面了解此检查的工作方式。

主配置文件

如果使用naginstall.sh脚本,则主配置文件为/usr/local/nagios/etc/nagios.cfg。 该脚本显示了几个具有附加定义的cfg_files。 其中有一行:

cfg_file=/usr/local/nagios/etc/objects/localhost.cfg

如果检查此文件,则将在Web视图上看到localhost的所有服务。 这是配置默认服务的地方。 根分区定义出现在第77行。

图2显示了如何配置根分区检查的层次结构。

图2.如何配置根分区检查
根分区检查的配置方式

首先请注意Nagios对象的继承方案。 根分区的定义使用本地服务定义,而本地服务定义又使用通用服务定义。 这定义了服务的调用方式,频率以及其他可调参数等。

定义的下一个重要部分是它使用的检查命令。 首先,它使用称为check_local_disk的命令定义。 它传递的参数是!20%!10%!/ 。 这意味着,当check_local_disk命令定义报告20% ,它将发出警告。 当它达到10% ,您将遇到严重错误。 /表示正在检查“ /”分区。 check_local_disk依次简单地调用check_disk命令,该命令位于/ usr / local / nagios / libexec目录中。

这是如何设置配置的基本思想。 您可以使用它来创建自己的服务,以监视和调整所需的任何参数。 要对发生的事情有更深入的了解,请阅读文档并尝试自己设置一些参数。

注册警报

现在我们已经全部配置完毕,注册警报。 我们在一开始就已经做到了,但是如果您要更改或添加用户,则可以修改/usr/local/nagios/etc/objects/contacts.cfg文件。 只需将联系人姓名更改为您的姓名,然后将电子邮件更改为您的电子邮件地址即可。 大多数基本的Linux服务器应该已经设置为可以处理邮件。

现在让我们配置其他节点。

为网格/云/集群中的其他节点配置

我的达拉斯数据中心中有一组节点。 我将创建一个目录,在其中放置所有配置文件:

mkdir -p /usr/local/nagios/etc/dallas

我需要告诉Nagios,我的配置文件将放入其中。 我通过修改nagios.cfg文件并添加以下行来完成此操作:

cfg_dir=/usr/local/nagios/etc/dallas

我将在这里创建几个文件,这些文件可能会令人困惑。 图3说明了实体及其所属的文件,并显示了对象之间的关系。

图3.实体及其文件图
实体及其文件图

在其余的设置和安装过程中,请牢记此图。

在/usr/local/nagios/etc/dallas/nodes.cfg文件中,我定义了所有节点和节点组。 我有三种要监视的机器:

  • 网络服务器(在我的情况下是Linux服务器,并在其上运行Ganglia)
  • 网络交换机(我的交换机,包括高速和千兆以太网)
  • 管理设备(例如刀片管理模块,旧的IBM RSA卡,BMC,可能的智能PDU等)

我创建三个相应的组,如下所示:

define hostgroup {
 hostgroup_name dallas-cloud-servers
 alias Dallas Cloud Servers
}

define hostgroup
 hostgroup_name dallas-cloud-network
 alias Dallas Cloud Network Infrastructure
}

define hostgroup
 hostgroup_name dallas-cloud-management
 alias Dallas Cloud Management Devides
}

接下来,我创建三个具有共同特征的模板文件,以供这些节点组的节点共享:

define host {
        name dallas-management
        use linux-server
        hostgroups dallas-cloud-management
        # TEMPLATE!
        register 0
}


define host {
        name dallas-server
        use linux-server
        hostgroups dallas-cloud-servers
        # TEMPLATE!
        register 0
}

define host {
        name dallas-network
        use generic-switch
        hostgroups dallas-cloud-network
        # TEMPLATE!
        register 0
}

现在,我的单个节点定义是dallas-managementdallas-serverdallas-network 。 这是每个示例:

define host {
 use dallas-server
 host_name x336001
 address 172.10.11.1
}
define host {
 use dallas-network
 host_name smc001
 address 172.10.0.254
}
define host {
 use dallas-management
 host_name x346002-rsa
 address 172.10.11.12
}

我生成了一个脚本来遍历节点列表,并使用达拉斯实验室中的节点完全填充该文件。 当我重新启动Nagios时,将全部检查它们是否可达。 但是我仍然必须添加一些其他服务!

您可能要先重新启动Nagios,以确保您的设置已完成。 如果他们这样做了,那么您应该在“ 主机组概述”视图下看到一些组。 如果有错误,请运行:

/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

这将验证您的文件并帮助您发现任何错误。

现在,您可以添加一些基本服务。 按照本地主机上的模板,一个简单的方法就是检查dallas-cloud-servers组中的SSH。 让我们为此启动另一个文件: /usr/local/nagios/etc/dallas/host-services.cfg 。 最简单的方法是将配置复制到要监视的localhost之外。 我做到了,并添加了一个依赖项:

define service{
        use                             generic-service
        hostgroup_name                  dallas-cloud-servers
        service_description             SSH
        check_command                   check_ssh
        }

define service{
        use                             generic-service
        hostgroup_name                  dallas-cloud-servers
        service_description             PING
        check_command                   check_ping!100.0,20%!500.0,60%
        }

define servicedependency{
        hostgroup_name                  dallas-cloud-servers
        service_description             PING
        dependent_hostgroup_name        dallas-cloud-servers
        dependent_service_description   SSH
}

如果PING不起作用,我不希望SSH经过测试。 从这一点开始,您可以添加各种各样的东西,但这使我们首先要看些东西。 重新启动Nagios并测试菜单,以确保您看到对节点的ping和ssh检查:

service nagios reload

都好? 好的,现在让我们进入有趣的部分并集成Ganglia。

与Nagios集成以报告Ganglia指标

Nagios Exchange是获得Nagios插件的另一个好地方。 但是对于我们的Nagios的Ganglia插件而言,除了在本文第1部分中下载的tarball之外,别无他 。 假设您在/ tmp目录中解压缩了tarball,只需复制contrib目录中的check_ganglia.py脚本即可:

cp /tmp/ganglia-3.1.1/contrib/check_ganglia.py \
/usr/local/nagios/libexec/

check_ganglia是一个很酷的Python脚本,您可以在运行gmetad的同一服务器上运行(在我的情况下,这也是Nagios在其中运行的管理服务器)。 让我们在端口8649上查询本地主机。这样,您就不会通过运行远程命令来消耗网络流量:您可以利用Ganglia的扩展技术来做到这一点!

如果您运行telnet localhost 8649 ,则会从节点上收集到的数据中看到大量的节点输出(前提是您已像第1部分中所述启动并运行了Ganglia)。 让我们监视一下Ganglia为我们提供的一些信息。

在/ var / lib / ganglia / rrds目录中,您可以看到正在每个主机上测量的指标。 会生成漂亮的图形,您可以随着时间的推移分析指标。 我们将要测量load_onedisk_free并且由于在第1部分中启用了IPMI温度测量,因此我们disk_free添加该测量值。

创建/usr/local/nagios/etc/dallas/ganglia-services.cfg文件并向其中添加服务:

define servicegroup {
  servicegroup_name ganglia-metrics
  alias Ganglia Metrics
}

define command {
  command_name check_ganglia
  command_line $USER1$/check_ganglia.py -h $HOSTNAME$ -m $ARG1$ -w $ARG2$ -c $ARG3$
}

define service {
  use generic-service
  name ganglia-service
  hostgroup_name dallas-cloud-servers
  service_groups ganglia-metrics
  notifications_enabled 0
}


define service {
  use ganglia-service
  service_description load_one
  check_command check_ganglia!load_one!4!5
}


define service {
  use ganglia-service
  service_description ambient_temp
  check_command check_ganglia!AmbientTemp!20!30
}

define service {
  use ganglia-service
  service_description disk_free
  check_command check_ganglia!disk_free!10!5
}

重新启动Nagios时,您现在可以对Ganglia指标发出警报!

一个警告: check_ganglia.py命令仅在阈值过高时发出警报。 如果您希望它在阈值过低时发出警报(例如disk_free ),那么您需要破解代码。 我将文件末尾更改为:

if critical > warning:
    if value >= critical:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif value >= warning:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)
  else:
    if critical >= value:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif warning >= value:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)

现在重新加载Nagios:

service nagios restart

如果一切顺利,您应该会看到Nagios正在监视Ganglia数据!

图4. Nagios监视的神经节数据
Nagios监控的Ganglia数据

在Ganglia和Nagios一起工作时,您可以发疯并立即监视任何事情。 你统治云!

扩展Nagios:监视网络交换机

随着云和虚拟化成为生活的一部分,“网络专家”和“系统专家”的旧界限变得越来越模糊。 继续忽略配置网络交换机并了解网络拓扑的系统管理员可能会过时。

因此,您不必面对不完整的情况,我将向您展示如何扩展Nagios来监视网络交换机。 使用Nagios监视网络交换机的优势很简单(而不仅仅是依靠交换机供应商的解决方案)-您可以使用Nagios监视任何供应商的交换机。 您已经看到ping的工作,现在让我们在交换机上探索SNMP。

某些交换机默认情况下启用SNMP。 您可以按照供应商的说明进行设置。 要在Cisco交换机上设置SNMP,您可以按照以下示例为主机名为c2960g的交换机提供以下信息:

telnet c2960g
c2960g>enable
c2960g#configure terminal
c2960g(config)#snmp-server host 192.168.15.1 traps SNMPv1
c2960g(config)#snmp-server community public
c2960g(config)#exit
c2960g#copy running-config startup-config

现在,要查看您可以监视的内容,请运行snmpwalk并将其通过管道传输到如下文件:

snmpwalk -v 1 -c public c2960g

如果一切顺利,您应该会看到大量东西传回去。 然后,您可以捕获此输出并查看要监视的不同位置。

我还有另一个开关,这里将以它为例。 当我运行snmpwalk命令时,我会看到端口及其标记方式。 我有兴趣获取以下信息:

  • MTU( IF-MIB::ifMtu.<portnumber> )。
  • 端口的运行速度( IF-MIB::ifSpeed.<port number> )。
  • 端口是否已启动( IF-MIB::ifOperStatus.<port number> )。

为了对此进行监视,我将创建一个新文件/usr/local/nagios/etc/dallas/switch-services.cfg 。 我有我的网络主机到交换机的映射,所以我知道一切在哪里。 如果您还没有的话,也应该这样做。 如果您真的想成为云,则所有资源都应具有已知状态。

我将以节点x336001为例。 我知道它在端口5上。这是我的文件的样子:

define servicegroup {
  servicegroup_name switch-snmp
  alias Switch SNMP Services
}

define service {
  use generic-service
  name switch-service
  host_name smc001
  service_groups switch-snmp
}

define service {
  use switch-service
  service_description Port5-MTU-x336001
  check_command check_snmp!-o IF-MIB::ifMtu.5
}
define service {
  use switch-service
  service_description Port5-Speed-x336001
  check_command check_snmp!-o IF-MIB::ifSpeed.5
}

define service {
  use switch-service
  service_description Port5-Status-x336001
  check_command check_snmp!-o IF-MIB::ifOperStatus.5
}

完成后,重新启动Nagios,您可以看到我现在可以查看我的开关条目:

图5.监视开关
监控开关

这只是如何监视开关的一个示例。 请注意,我没有设置警报,也没有指出什么将构成紧急行动。 您可能还注意到,libexec目录中还有其他选项可以执行类似的操作。 check_ifoperstatus和其他人也可以做到这一点。 使用Nagios,有许多方法可以完成一项任务。

扩展Nagios:作业报告以监视TORQUE

您可以根据TORQUE编写许多脚本来确定此排队系统的运行方式。 在此扩展中,假设您已经启动并运行了TORQUE。 TORQUE是一个资源管理器,可与Moab和Maui等调度程序一起使用。 让我们看一下由Colin Morey编写的开源Nagios插件。

下载此文件并将其放入/ usr / local / nagios / libexec目录,并确保其可执行文件。 我不得不通过更改use lib "/usr/nagios/libexec";来更改Nagios的安装目录,从而稍微修改一下代码use lib "/usr/nagios/libexec"; use lib "/usr/local/nagios/libexec"; 。 我还必须更改my $qstat = '/usr/bin/qstat' ; qstat命令所在的位置。 我的看起来像这样: my $qstat = '/opt/torque/x86_64/bin/qstat' ;

验证它是否有效,(我使用的队列称为dque):

[root@redhouse libexec]# ./check_pbs.pl -Q dque -tw 20 -tm 50
check_pbs.pl Critical: dque on localhost checked, Total number of jobs 
higher than 50.  Total jobs:518, Jobs Queued:518, Jobs Waiting:0, Jobs 
Halted:0 |exectime=9340us

您可以使用-h选项显示更多要监视的内容。 现在,将其放入配置文件/usr/local/nagios/etc/dallas/torque.cfg中

define service {
        use                             generic-service
        host_name                       localhost
        service_description             TORQUE Queues
        check_command                   check_pbs!20!50
}

define command {
        command_name                    check_pbs
        command_line                    $USER1$/check_pbs.pl -Q dque 
                                         -tw $ARG1$ -tm $ARG2$
}

重新启动Nagios后,该服务将显示在localhost下:

图6. Nagios重新启动后,出现TORQUE服务
Nagios重新启动后,出现TORQUE服务

在我的系统中,我收到严重警报,因为我有518个作业排队!

显然,还有更多方法可以跟踪一个人可以编写和已经编写的TORQUE和脚本。 您甚至可以编写使用pbsnodes告诉节点状态的脚本。 人们将更加关注其节点在何处运行以及作业已运行了多长时间。 这个小例子只是让您对可能的解决方案有所了解,并说明您可以花很少的时间来制作监视解决方案。

结论

阅读了这个由两部分组成的系列文章之后,系统管理员应该有能力运行Ganglia和Nagios,以前所未有的方式真正监视其数据中心。 这两个软件包的范围很大。 不过,我们在这里涉及的内容与集群,网格或云基础架构有关。

设置此监视解决方案的大部分时间都花费在配置要监视的服务上。 许多现有的替代解决方案都是管道安装的,没有任何设备-换句话说,它们提供了允许插入插件的框架,但是很少提供预制插件。 大部分插件工作必须由管理员或用户完成,而实际上却占了出色的数据中心监视工作的大部分,因此这项工作通常被琐碎了。

Ganglia和Nagios在一起不仅仅是管道。


翻译自: https://www.ibm.com/developerworks/opensource/library/l-ganglia-nagios-2/index.html

nagios监控使用方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值