nagios监控使用方法_使用Nagios监控企业集群

最新推荐文章于 2024-06-08 23:28:53 发布

cuxiong8996

最新推荐文章于 2024-06-08 23:28:53 发布

阅读量824

点赞数

文章标签：网络大数据 python linux 人工智能

原文链接：https://www.ibm.com/developerworks/opensource/library/l-ganglia-nagios-2/index.html

版权

nagios监控使用方法

第1部分的回顾

数据中心在增长，行政人员在减少，因此需要用于计算资源的高效监控工具。本系列的第1部分讨论了一起使用Ganglia和Nagios的好处，然后向您展示了如何使用自制的监视脚本安装和扩展Ganglia。

回顾一下第1部分中监视的多个定义（取决于违规者和推断者）：

如果您正在集群上运行应用程序，您会认为：“我的工作什么时候运行？什么时候完成？与上次相比，它的性能如何？”
如果您是网络运营中心的运营商，您会认为：“我们何时会看到红灯表示需要修复某些问题并进行服务呼叫？”
如果您是系统工程团队的一员，您会认为：“我们的机器性能如何？所有服务是否正常运行？我们看到了什么趋势，以及如何更好地利用我们的计算资源？”

您可以找到用于精确监视要监视的代码，并且该代码可以是开源的。当您尝试实施安装并摸索出适合您的环境的配置时，使用开源监视工具最困难的部分就来了。开源（和商业）监视工具的两个主要问题如下：

没有工具可以按照您想要的方式监视您想要的一切。
要使该工具完全按照您的要求在数据中心中运行，可能需要进行大量自定义。

Ganglia是一种监视数据中心的工具，并在高性能计算环境中大量使用（但它对其他环境（例如云，渲染场和托管中心）也很有吸引力）。与Nagios作为警报机制的关注点相比，它更关注收集指标并随时间进行跟踪。 Ganglia曾经要求代理在每台主机上运行以从中收集信息，但是现在可以通过Ganglia的欺骗机制从几乎任何事物中获取指标。 Ganglia没有内置的通知系统，但是它旨在支持目标主机上的可伸缩内置代理。

阅读第1部分之后，您可以安装Ganglia，并回答不同用户群体倾向于提出的监视问题。您还可以配置基本的Ganglia设置，使用Python模块扩展IPMI（智能平台管理接口）的功能，并使用Ganglia主机欺骗来监视IPMI。

现在，让我们看一下Nagios。

介绍Nagios

此部分向您展示如何安装Nagios并将Ganglia绑回其中。我们将为Nagios添加两个功能，这些功能将帮助您监视标准群集，网格，云（或您最喜欢的用于扩展计算的流行词）的工作。这两个功能都是关于：

监控网络交换机
监视资源管理器

在这种情况下，我们将监视TORQUE。完成后，您将拥有一个框架来控制整个数据中心的监视系统。

Nagios和Ganglia一样，在HPC和其他环境中也被大量使用，但是Nagios更像是Ganglia的警报机制（它更侧重于收集和跟踪指标）。 Nagios以前仅轮询来自其目标主机的信息，但最近开发了插件，使其可以在那些主机上运行代理。 Nagios具有内置的通知系统。

现在，让我们安装Nagios并设置HPCLinux®集群的基线监视系统，以解决三种不同的监视角度：

应用程序人员可以看到队列已满，并可以看到可用于运行作业的节点。
可以向NOC发出系统故障警报或在Nagios Web界面上看到闪亮的红色错误指示灯。如果节点出现故障或温度过高，也会通过电子邮件通知他们。
系统工程师可以对数据进行图形处理，报告群集利用率，并就未来的硬件购置做出决策。

安装Nagios

Internet上已充分记录了使Nagios在您的计算机上运行的努力。由于我倾向于在不同的环境中大量安装它，因此我编写了一个脚本来完成它。

首先，您需要下载两个软件包：

Nagios（经过3.0.6版测试）
Nagios插件（经过1.4.13版测试）

附加组件包括：

Nagios事件日志，可用于监视Windows事件日志
NRPE，它提供了许多Ganglia功能

获取压缩包并将其放置在目录中。例如，我在/ tmp中有以下三个文件：

nagios-3.0.6.tar.gz
nagios-plugins-1.4.13.tar.gz
naginstall.sh

清单1显示了naginstall.sh安装脚本：

清单1. naginstall.sh脚本

#!/bin/ksh

NAGIOSSRC=nagios-3.0.6
NAGIOSPLUGINSRC=nagios-plugins-1.4.13
NAGIOSCONTACTSCFG=/usr/local/nagios/etc/objects/contacts.cfg
NAGIOSPASSWD=/usr/local/nagios/etc/htpasswd.users
PASSWD=cluster
OS=foo

function buildNagiosPlug {

  if [ -e $NAGIOSPLUGINSRC.tar.gz ]
  then
    echo "found $NAGIOSPLUGINSRC.tar.gz  building and installing Nagios"
  else
    echo "could not find $NAGIOSPLUGINSRC.tar.gz in current directory."
    echo "Please run $0 in the same directory as the source files."
    exit 1
  fi
  echo "Extracting Nagios Plugins..."
  tar zxf $NAGIOSPLUGINSRC.tar.gz
  cd $NAGIOSPLUGINSRC
  echo "Configuring Nagios Plugins..."
  if ./configure --with-nagios-user=nagios --with-nagios-group=nagios
      -prefix=/usr/local/nagios > config.LOG.$$ 2>&1
  then
    echo "Making Nagios Plugins..."
    if make -j8 > make.LOG.$$ 2>&1
    then
      make install > make.LOG.$$ 2>&1
    else
      echo "Make failed of Nagios plugins.  See $NAGIOSPLUGINSRC/make.LOG.$$"
      exit 1
    fi
  else
    echo "configure of Nagios plugins failed.  See config.LOG.$$"
    exit 1
  fi
  echo "Successfully built and installed Nagios Plugins!"
  cd ..

}

function buildNagios {
  if [ -e $NAGIOSSRC.tar.gz ]
  then
    echo "found $NAGIOSSRC.tar.gz  building and installing Nagios"
  else
    echo "could not find $NAGIOSSRC.tar.gz in current directory."
    echo "Please run $0 in the same directory as the source files."
    exit 1
  fi
  echo "Extracting Nagios..."
  tar zxf $NAGIOSSRC.tar.gz
  cd $NAGIOSSRC
  echo "Configuring Nagios..."
  if ./configure --with-command-group=nagcmd > config.LOG.$$ 2>&1
  then
    echo "Making Nagios..."
    if make all -j8 > make.LOG.$$ 2>&1
    then
      make install > make.LOG.$$ 2>&1
      make install-init > make.LOG.$$ 2>&1
      make install-config > make.LOG.$$ 2>&1
      make install-commandmode > make.LOG.$$ 2>&1
      make install-webconf > make.LOG.$$ 2>&1
    else
      echo "make all failed.  See log:"
      echo "$NAGIOSSRC/make.LOG.$$"
      exit 1
    fi
  else
    echo "configure of Nagios failed.  Please read $NAGIOSSRC/config.LOG.$$ for details."
    exit 1
  fi
  echo "Done Making Nagios!"
  cd ..
}


function configNagios {
  echo "We'll now configure Nagios."
  LOOP=1
  while [[ $LOOP -eq 1 ]]
  do
    echo "You'll need to put in a user name.  This should be the person"
    echo "who will be receiving alerts.  This person should have an account"
    echo "on this server.  "
    print "Type in the userid of the person who will receive alerts (e.g. bob)> \c"
    read NAME
    print "What is ${NAME}'s email?> \c"
    read EMAIL
    echo
    echo
    echo "Nagios alerts will be sent to $NAME at $EMAIL"
    print "Is this correct? [y/N] \c"
    read YN
    if [[ "$YN" = "y" ]]
    then
      LOOP=0
    fi
  done
  if [ -r $NAGIOSCONTACTSCFG ]
  then
    perl -pi -e "s/nagiosadmin/$NAME/g" $NAGIOSCONTACTSCFG
    EMAIL=$(echo $EMAIL | sed s/\@/\\\\@/g)
    perl -pi -e "s/nagios\@localhost/$EMAIL/g" $NAGIOSCONTACTSCFG
  else
    echo "$NAGIOSCONTACTSCFG does not exist"
    exit 1
  fi

  echo "setting ${NAME}'s password to be 'cluster' in Nagios"
  echo "    you can change this later by running: "
  echo "    htpasswd -c $NAGIOSPASSWD $Name)'"
  htpasswd -bc $NAGIOSPASSWD $NAME cluster
  if [ "$OS" = "rh" ]
  then
    service httpd restart
  fi

}


function preNagios {

  if [ "$OS" = "rh" ]
  then
    echo "making sure prereqs are installed"
    yum -y install httpd gcc glibc glibc-common gd gd-devel perl-TimeDate
    /usr/sbin/useradd -m nagios
    echo $PASSWD | passwd --stdin nagios
    /usr/sbin/groupadd nagcmd
    /usr/sbin/usermod -a -G nagcmd nagios
    /usr/sbin/usermod -a -G nagcmd apache
  fi

}
function postNagios {
  if [ "$OS" = "rh" ]
  then
    chkconfig --add nagios
    chkconfig nagios on
    # touch this file so that if it doesn't exist we won't get errors
    touch /var/www/html/index.html
    service nagios start
  fi
  echo "You may now be able to access Nagios at the URL below:"
  echo "http://localhost/nagios"

}



if [ -e /etc/redhat-release ]
then
  echo "installing monitoring on Red Hat system"
  OS=rh
fi

# make sure you're root:
ID=$(id -u)
if [ "$ID" != "0" ]
then
  echo "Must run this as root!"
  exit
fi

preNagios
buildNagios
buildNagiosPlug
configNagios
postNagios

运行脚本./naginstall.sh

该代码在Red Hat系统上有效，并且如果您已安装本系列第1部分中提到的所有依赖项，则该代码应运行。运行naginstall.sh时，系统会提示您输入Nagios应该向其发送警报的用户。您稍后可以添加其他人。大多数组织都有邮件别名，该别名将发送给组中的人员。

如果您在安装时遇到问题，请查看Nagios网页（请参阅参考资料中的链接）并加入邮件列表。以我的经验，大多数与Nagios和Ganglia一样成功的软件包都相对容易安装。

配置Nagios

因此，让我们假设该脚本对您有用，并且您已完美安装了所有内容。然后，当脚本成功退出时，您应该能够打开Web浏览器并看到正在监视您自己的本地主机（如图1所示）：

图1.屏幕显示了您正在监视的本地主机

通过单击服务详细信息 ，您可以看到我们正在监视本地计算机上的多个服务（例如Ping，HTTP，负载，用户等）。默认情况下已配置。

让我们研究称为Root Partition的服务。根分区已满时，此服务会提醒您。通过检查安装时生成的配置文件，您可以全面了解此检查的工作方式。

主配置文件

如果使用naginstall.sh脚本，则主配置文件为/usr/local/nagios/etc/nagios.cfg。该脚本显示了几个具有附加定义的cfg_files。其中有一行：

cfg_file=/usr/local/nagios/etc/objects/localhost.cfg

如果检查此文件，则将在Web视图上看到localhost的所有服务。这是配置默认服务的地方。根分区定义出现在第77行。

图2显示了如何配置根分区检查的层次结构。

图2.如何配置根分区检查

首先请注意Nagios对象的继承方案。根分区的定义使用本地服务定义，而本地服务定义又使用通用服务定义。这定义了服务的调用方式，频率以及其他可调参数等。

定义的下一个重要部分是它使用的检查命令。首先，它使用称为check_local_disk的命令定义。它传递的参数是!20%!10%!/ 。这意味着，当check_local_disk命令定义报告20% ，它将发出警告。当它达到10% ，您将遇到严重错误。 /表示正在检查“ /”分区。 check_local_disk依次简单地调用check_disk命令，该命令位于/ usr / local / nagios / libexec目录中。

这是如何设置配置的基本思想。您可以使用它来创建自己的服务，以监视和调整所需的任何参数。要对发生的事情有更深入的了解，请阅读文档并尝试自己设置一些参数。

注册警报

现在我们已经全部配置完毕，注册警报。我们在一开始就已经做到了，但是如果您要更改或添加用户，则可以修改/usr/local/nagios/etc/objects/contacts.cfg文件。只需将联系人姓名更改为您的姓名，然后将电子邮件更改为您的电子邮件地址即可。大多数基本的Linux服务器应该已经设置为可以处理邮件。

现在让我们配置其他节点。

为网格/云/集群中的其他节点配置

我的达拉斯数据中心中有一组节点。我将创建一个目录，在其中放置所有配置文件：

mkdir -p /usr/local/nagios/etc/dallas

我需要告诉Nagios，我的配置文件将放入其中。我通过修改nagios.cfg文件并添加以下行来完成此操作：

cfg_dir=/usr/local/nagios/etc/dallas

我将在这里创建几个文件，这些文件可能会令人困惑。图3说明了实体及其所属的文件，并显示了对象之间的关系。

图3.实体及其文件图

在其余的设置和安装过程中，请牢记此图。

在/usr/local/nagios/etc/dallas/nodes.cfg文件中，我定义了所有节点和节点组。我有三种要监视的机器：

网络服务器（在我的情况下是Linux服务器，并在其上运行Ganglia）
网络交换机（我的交换机，包括高速和千兆以太网）
管理设备（例如刀片管理模块，旧的IBM RSA卡，BMC，可能的智能PDU等）

我创建三个相应的组，如下所示：

define hostgroup {
 hostgroup_name dallas-cloud-servers
 alias Dallas Cloud Servers
}

define hostgroup
 hostgroup_name dallas-cloud-network
 alias Dallas Cloud Network Infrastructure
}

define hostgroup
 hostgroup_name dallas-cloud-management
 alias Dallas Cloud Management Devides
}

接下来，我创建三个具有共同特征的模板文件，以供这些节点组的节点共享：

define host {
        name dallas-management
        use linux-server
        hostgroups dallas-cloud-management
        # TEMPLATE!
        register 0
}


define host {
        name dallas-server
        use linux-server
        hostgroups dallas-cloud-servers
        # TEMPLATE!
        register 0
}

define host {
        name dallas-network
        use generic-switch
        hostgroups dallas-cloud-network
        # TEMPLATE!
        register 0
}

现在，我的单个节点定义是dallas-management ， dallas-server或dallas-network 。这是每个示例：

define host {
 use dallas-server
 host_name x336001
 address 172.10.11.1
}
define host {
 use dallas-network
 host_name smc001
 address 172.10.0.254
}
define host {
 use dallas-management
 host_name x346002-rsa
 address 172.10.11.12
}

我生成了一个脚本来遍历节点列表，并使用达拉斯实验室中的节点完全填充该文件。当我重新启动Nagios时，将全部检查它们是否可达。但是我仍然必须添加一些其他服务！

您可能要先重新启动Nagios，以确保您的设置已完成。如果他们这样做了，那么您应该在“ 主机组概述”视图下看到一些组。如果有错误，请运行：

/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

这将验证您的文件并帮助您发现任何错误。

现在，您可以添加一些基本服务。按照本地主机上的模板，一个简单的方法就是检查dallas-cloud-servers组中的SSH。让我们为此启动另一个文件： /usr/local/nagios/etc/dallas/host-services.cfg 。最简单的方法是将配置复制到要监视的localhost之外。我做到了，并添加了一个依赖项：

define service{
        use                             generic-service
        hostgroup_name                  dallas-cloud-servers
        service_description             SSH
        check_command                   check_ssh
        }

define service{
        use                             generic-service
        hostgroup_name                  dallas-cloud-servers
        service_description             PING
        check_command                   check_ping!100.0,20%!500.0,60%
        }

define servicedependency{
        hostgroup_name                  dallas-cloud-servers
        service_description             PING
        dependent_hostgroup_name        dallas-cloud-servers
        dependent_service_description   SSH
}

如果PING不起作用，我不希望SSH经过测试。从这一点开始，您可以添加各种各样的东西，但这使我们首先要看些东西。重新启动Nagios并测试菜单，以确保您看到对节点的ping和ssh检查：

service nagios reload

都好？好的，现在让我们进入有趣的部分并集成Ganglia。

与Nagios集成以报告Ganglia指标

Nagios Exchange是获得Nagios插件的另一个好地方。但是对于我们的Nagios的Ganglia插件而言，除了在本文第1部分中下载的tarball之外，别无他求。假设您在/ tmp目录中解压缩了tarball，只需复制contrib目录中的check_ganglia.py脚本即可：

cp /tmp/ganglia-3.1.1/contrib/check_ganglia.py \
/usr/local/nagios/libexec/

check_ganglia是一个很酷的Python脚本，您可以在运行gmetad的同一服务器上运行（在我的情况下，这也是Nagios在其中运行的管理服务器）。让我们在端口8649上查询本地主机。这样，您就不会通过运行远程命令来消耗网络流量：您可以利用Ganglia的扩展技术来做到这一点！

如果您运行telnet localhost 8649 ，则会从节点上收集到的数据中看到大量的节点输出（前提是您已像第1部分中所述启动并运行了Ganglia）。让我们监视一下Ganglia为我们提供的一些信息。

在/ var / lib / ganglia / rrds目录中，您可以看到正在每个主机上测量的指标。会生成漂亮的图形，您可以随着时间的推移分析指标。我们将要测量load_one ， disk_free并且由于在第1部分中启用了IPMI温度测量，因此我们disk_free添加该测量值。

创建/usr/local/nagios/etc/dallas/ganglia-services.cfg文件并向其中添加服务：

define servicegroup {
  servicegroup_name ganglia-metrics
  alias Ganglia Metrics
}

define command {
  command_name check_ganglia
  command_line $USER1$/check_ganglia.py -h $HOSTNAME$ -m $ARG1$ -w $ARG2$ -c $ARG3$
}

define service {
  use generic-service
  name ganglia-service
  hostgroup_name dallas-cloud-servers
  service_groups ganglia-metrics
  notifications_enabled 0
}


define service {
  use ganglia-service
  service_description load_one
  check_command check_ganglia!load_one!4!5
}


define service {
  use ganglia-service
  service_description ambient_temp
  check_command check_ganglia!AmbientTemp!20!30
}

define service {
  use ganglia-service
  service_description disk_free
  check_command check_ganglia!disk_free!10!5
}

重新启动Nagios时，您现在可以对Ganglia指标发出警报！

一个警告： check_ganglia.py命令仅在阈值过高时发出警报。如果您希望它在阈值过低时发出警报（例如disk_free ），那么您需要破解代码。我将文件末尾更改为：

if critical > warning:
    if value >= critical:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif value >= warning:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)
  else:
    if critical >= value:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif warning >= value:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)

现在重新加载Nagios：

service nagios restart

如果一切顺利，您应该会看到Nagios正在监视Ganglia数据！

图4. Nagios监视的神经节数据

在Ganglia和Nagios一起工作时，您可以发疯并立即监视任何事情。你统治云！

扩展Nagios：监视网络交换机

随着云和虚拟化成为生活的一部分，“网络专家”和“系统专家”的旧界限变得越来越模糊。继续忽略配置网络交换机并了解网络拓扑的系统管理员可能会过时。

因此，您不必面对不完整的情况，我将向您展示如何扩展Nagios来监视网络交换机。使用Nagios监视网络交换机的优势很简单（而不仅仅是依靠交换机供应商的解决方案）-您可以使用Nagios监视任何供应商的交换机。您已经看到ping的工作，现在让我们在交换机上探索SNMP。

某些交换机默认情况下启用SNMP。您可以按照供应商的说明进行设置。要在Cisco交换机上设置SNMP，您可以按照以下示例为主机名为c2960g的交换机提供以下信息：

telnet c2960g
c2960g>enable
c2960g#configure terminal
c2960g(config)#snmp-server host 192.168.15.1 traps SNMPv1
c2960g(config)#snmp-server community public
c2960g(config)#exit
c2960g#copy running-config startup-config

现在，要查看您可以监视的内容，请运行snmpwalk并将其通过管道传输到如下文件：

snmpwalk -v 1 -c public c2960g

如果一切顺利，您应该会看到大量东西传回去。然后，您可以捕获此输出并查看要监视的不同位置。

我还有另一个开关，这里将以它为例。当我运行snmpwalk命令时，我会看到端口及其标记方式。我有兴趣获取以下信息：

MTU（ IF-MIB::ifMtu.<portnumber> ）。
端口的运行速度（ IF-MIB::ifSpeed.<port number> ）。
端口是否已启动（ IF-MIB::ifOperStatus.<port number> ）。

为了对此进行监视，我将创建一个新文件/usr/local/nagios/etc/dallas/switch-services.cfg 。我有我的网络主机到交换机的映射，所以我知道一切在哪里。如果您还没有的话，也应该这样做。如果您真的想成为云，则所有资源都应具有已知状态。

我将以节点x336001为例。我知道它在端口5上。这是我的文件的样子：

define servicegroup {
  servicegroup_name switch-snmp
  alias Switch SNMP Services
}

define service {
  use generic-service
  name switch-service
  host_name smc001
  service_groups switch-snmp
}

define service {
  use switch-service
  service_description Port5-MTU-x336001
  check_command check_snmp!-o IF-MIB::ifMtu.5
}
define service {
  use switch-service
  service_description Port5-Speed-x336001
  check_command check_snmp!-o IF-MIB::ifSpeed.5
}

define service {
  use switch-service
  service_description Port5-Status-x336001
  check_command check_snmp!-o IF-MIB::ifOperStatus.5
}

完成后，重新启动Nagios，您可以看到我现在可以查看我的开关条目：

图5.监视开关

这只是如何监视开关的一个示例。请注意，我没有设置警报，也没有指出什么将构成紧急行动。您可能还注意到，libexec目录中还有其他选项可以执行类似的操作。 check_ifoperstatus和其他人也可以做到这一点。使用Nagios，有许多方法可以完成一项任务。

扩展Nagios：作业报告以监视TORQUE

您可以根据TORQUE编写许多脚本来确定此排队系统的运行方式。在此扩展中，假设您已经启动并运行了TORQUE。 TORQUE是一个资源管理器，可与Moab和Maui等调度程序一起使用。让我们看一下由Colin Morey编写的开源Nagios插件。

下载此文件并将其放入/ usr / local / nagios / libexec目录，并确保其可执行文件。我不得不通过更改use lib "/usr/nagios/libexec";来更改Nagios的安装目录，从而稍微修改一下代码use lib "/usr/nagios/libexec"; use lib "/usr/local/nagios/libexec"; 。我还必须更改my $qstat = '/usr/bin/qstat' ; qstat命令所在的位置。我的看起来像这样： my $qstat = '/opt/torque/x86_64/bin/qstat' ; 。

验证它是否有效，（我使用的队列称为dque）：

[root@redhouse libexec]# ./check_pbs.pl -Q dque -tw 20 -tm 50
check_pbs.pl Critical: dque on localhost checked, Total number of jobs 
higher than 50.  Total jobs:518, Jobs Queued:518, Jobs Waiting:0, Jobs 
Halted:0 |exectime=9340us

您可以使用-h选项显示更多要监视的内容。现在，将其放入配置文件/usr/local/nagios/etc/dallas/torque.cfg中 ：

define service {
        use                             generic-service
        host_name                       localhost
        service_description             TORQUE Queues
        check_command                   check_pbs!20!50
}

define command {
        command_name                    check_pbs
        command_line                    $USER1$/check_pbs.pl -Q dque 
                                         -tw $ARG1$ -tm $ARG2$
}

重新启动Nagios后，该服务将显示在localhost下：

图6. Nagios重新启动后，出现TORQUE服务

在我的系统中，我收到严重警报，因为我有518个作业排队！

显然，还有更多方法可以跟踪一个人可以编写和已经编写的TORQUE和脚本。您甚至可以编写使用pbsnodes告诉节点状态的脚本。人们将更加关注其节点在何处运行以及作业已运行了多长时间。这个小例子只是让您对可能的解决方案有所了解，并说明您可以花很少的时间来制作监视解决方案。

结论

阅读了这个由两部分组成的系列文章之后，系统管理员应该有能力运行Ganglia和Nagios，以前所未有的方式真正监视其数据中心。这两个软件包的范围很大。不过，我们在这里涉及的内容与集群，网格或云基础架构有关。

设置此监视解决方案的大部分时间都花费在配置要监视的服务上。许多现有的替代解决方案都是管道安装的，没有任何设备-换句话说，它们提供了允许插入插件的框架，但是很少提供预制插件。大部分插件工作必须由管理员或用户完成，而实际上却占了出色的数据中心监视工作的大部分，因此这项工作通常被琐碎了。

Ganglia和Nagios在一起不仅仅是管道。

翻译自: https://www.ibm.com/developerworks/opensource/library/l-ganglia-nagios-2/index.html

nagios监控使用方法

cuxiong8996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nagios监控使用方法_使用Nagios监控企业集群

第1部分的回顾数据中心在增长，行政人员在减少，因此需要用于计算资源的高效监控工具。本系列的第1部分讨论了一起使用Ganglia和Nagios的好处，然后向您展示了如何使用自制的监视脚本安装和扩展Ganglia。回顾一下第1部分中监视的多个定义（取决于违规者和推断者）：如果您正在集群上运行应用程序，您会认为：“我的工作什么时候运行？什么时候完成？与上次相比，它的性能如何？”...
复制链接

扫一扫