错误:HBase服务出现 该运行状况测试不良,因为 Service Monitor 未找到活动 Master
如果重启服务之后无法排除该问题,请执行如下操作(CM换成自己的版本号):
rm -f /opt/cloudera-manager/cm-5.10.1/lib/cloudera-scm-agent/cm_guid
每台机器都执行一遍,然后重启客户端代理,执行如下代码:
/opt/cm-5.10.1/etc/init.d/cloudera-scm-agent start
sudo systemctl restart cloudera-scm-agent
该运行状况测试不良,因为 Service Monitor 未找到活动 XXX
cloudera manager web界面突然出现3个红点!点进去发现都是“该运行状况测试不良,因为 Service Monitor 未找到活动 XXX”
分别为 hbase master 、 namenode 、ResourceManager
确认这几个服务都是ok的,HDFS 的读写、hbase的建表查询、mapreduce的任务都能正确运行。
Cloudera Manager使用运行状况测试(health tests)来监控集群中运行的服务,角色和主机的运行状况,包括Cloudera Management Service角色。基于角色的健康测试默认启用。以一个简单的健康测试为例,每个NameNode数据目录中是否有足够的磁盘空间。更复杂的运行状况测试可以评估何时将HDFS的上一个检查点与阈值进行比较或数据节点是否连接到NameNode。还有一些运行状况测试可以汇总其他的运行状况测试:在HDFS中,有几个DataNode关闭是正常的(假设你有几十个节点),你可以设置一个阈值说明百分之多少个节点挂了才表明整个服务挂掉。
运行状况测试返回三个结果:良好(Good),存在隐患(Concerning)和不良(Bad)。如果测试低于警告阈值(warning threshold),则返回存在隐患(Concerning)。如果测试低于临界阈值(critical threshold),则返回不良(Bad)。服务或角色实例的整体运行状况是其运行状况测试的汇总。如果任何运行状况测试是存在隐患(但没有一个是不良),角色或者服务的运行状况就是存在隐患(Concerning)。如果任何运行状况测试是不良,则该服务或角色的运行状况就是不良(Bad)。
在Cloudera Manager的界面上,运行状况测试有3种不同的图标代表:良好(Good)
,存在隐患(Concerning)
,不良(Bad)
有以下两种运行状况测试:
1.通过-失败测试(Pass-fail tests),有以下两种:
- 有yes-no两个值。例如,服务或角色是否按预期启动,DataNode是否连接到其NameNode,或NodeManager被或未被列入黑名单。
- 做一些轻量级的测试确保服务正常运行并能响应请求。HDFS(NameNode角色),HBase和ZooKeeper服务会被执行这些测试,称为“canary”测试。
以上两种通过-失败测试(Pass-fail tests)会导致运行状况测试的结果为良好(Good)或不良(Bad)。
2.指标测试 - 将测试的属性值与阈值进行比较。例如,正在使用的文件描述符(file descriptors)的数量,可用或剩余的磁盘空间,GC花费多少时间,或者在前15分钟内有多少页面被交换到磁盘。通过测试得到的值与阈值进行比较来判断是否一切良好(Good),比如,是否有足够的磁盘空间,是存在隐患(Concerning)(磁盘空间变低),还是不良(Bad)(极低磁盘空间量)。
默认情况下,大多数运行状况测试都会启用,并被配置了合适的阈值。你可以通过编辑“配置”页面的监控属性来修改阈值。也可以启用或禁用单个或汇总的运行状况测试,或者指定需要哪些服务,角色实例和主机的运行状况测试。
2.查看运行状况测试结果
运行状况测试可以在以下几个地方进行查看:
1.“主页>状态”页面,是各个服务和角色的整体运行状况健康程度。角色或服务的整体健康状况是运行状况测试的一个汇总;如果任何运行状况测试是不良(Bad),则服务或者角色的状态就是不良(Bad)。如果任何运行状况测试是存在隐患(Concerning)(没有任何一项是不良(Bad)),则角色或者服务的状况就是存在隐患(Concerning)。
对于某些运行状况测试结果,你可以使用自定义图表功能绘制一段时间范围内的关联指标。
3.抑制运行状况测试结果
当运行状况测试结果显示集群中存在问题时,Cloudera Manager会显示警告。有些警告不一定指向集群真正的根源问题,或者是预期的警告问题。你可以在Cloudera Manager中抑制显示这些警告。
在运行状况测试警告出现时,或者在运行测试前,你都可以抑制运行状况警告。抑制的运行状况测试隐藏在Cloudera Manager中,它们的状态不会影响服务,主机或角色实例显示的运行状况测试的汇总。(如果你的集群由Multi Cloudera Manager Dashboard监控,那么显示的运行状况测试的汇总也不受抑制警告的影响。)抑制的运行状况测试警告在Cloudera Manager中保持可用,并且测试继续运行,但结果被隐藏。 你可以随时取消抑制健康测试。
注1:Multi Cloudera Manager Dashboard是由一个Cloudera Manager同时监控由多个Cloudera Manager汇总上来的监控数据。
注2:抑制运行状况测试与禁用运行状况测试不同。禁用的运行状况测试永远不会运行,而受抑制的运行状况测试仍旧会运行,只是其结果是隐藏的。
3.1.抑制运行状况测试
1.进入你想要抑制的运行状况。参考第二章:查看运行状况测试结果。