本篇文章接着上篇内容继续,地址:生产大数据集群资源监控--指标获取(含code)
在获取了对应的IDC机器自身的指标之后,还需要对Hadoop集群中HDFS和YARN的指标进行采集,大体思路上可以有2种:
- 第一种当然还是可以延用CM API去获取,因为CM中的tssql提供了非常丰富的各种指标监控。
- 第二种即通过jmx去获取数据,其实就是通过访问上述这些相关的URL,然后将得到的json进行解析,从而获取到我们需要的数据,最终将这些数据归并到一起,定时的去执行采集操作。
在实际的实践过程当中使用jmx这种方式去进行获取,涉及到的url请求如下:
- http://ruozedata001:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeInfo
- http://ruozedata001:50070/jmx?qry=Hadoop:service=NameNode,name=FSNamesystemState
具体的代码实现思路如下:
首先需要有个httpclient,去向server发起请求,从而获得对应的json数据,这里自己编写了StatefulHttpClient 其次使用JsonUtil该工具类,用于Json类型的数据与对象之间的转换 当然,我们也需要将所需要获取的监控指标给梳理出来,编写我们的entity。
MonitorMetrics.java:
HadoopUtil.java:
MonitorApp.java:
最终展示结果如下:
这里以HDFS为例,主要为HdfsSummary和DataNodeInfo 本案例的代码在github上,地址:Hadoop monitor 这里主要展示核心的代码:
https://github.com/lemonahit/DailyProject/tree/master/Monitor
关于YARN指标的获取,思路类似,这里就不再展示了。