通用监控指标
对于每个RPC服务应该监控
RpcProcessingTimeAvgTime(PRC处理的平均时间)
通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间
CallQueueLength(RPC Call队列的长度)
如果callqueue队列数值一直处于较高的水平,例如对于NN来说CallQueue的长度等于handler*100,也就是说NN可能收到了大量的请求或者server在处理rpc请求时耗时很长,导致call堆积等
进程JVM监控
MemHeapUsedM(堆内存使用监控)
通过监控改参数可以查看进程的gc时间和gc发生之后释放多少内存和进程的内存使用情况
ThreadsBlocked(线程阻塞数量)
分析当问题发生时进程的线程的阻塞状况
ThreadsWaiting(线程等待数量)
分析当问题发生时进程的线程的等待状况
NameNode监控指标
TotalFiles(总的文件数量)
监控和预警文件数的总量,可以通过其看出是否有任务突然大量写文件和删除大量文件
TotalBlocks(总的block数量)
表示集群的block数量,作用同上
PercentUsed(集群hdfs使用百分比)
监控集群的hdfs的使用情况,使用率不宜太高,因为需要预留磁盘空间给任务计算使用
BlockPoolUsedSpace(集群该namespace的hdfs使用容量大小)
可以监控不同namespace的hdfs的使用情况
Total(集群hdfs总容量大小)
<