可以用这个开源组件来做yarn上job运行情况的监控。
pip install yarn-api-client 可以在系统中安装该python组件。该组件的git地址为 https://github.com/toidi/hadoop-yarn-api-python-client
1)使用接口的情况如下:
1.job_history:
historys=HistoryServer('com.hunantv.datanode2', port=19888)
hs=historys.jobs().data 调出所有已经跑完的job的信息,hs['jobs']['job’]
hs.job_counters('job_1437445095118_246443’).data 统计job的输入输出大小等信息
hs.job_tasks('job_1437445095118_246443').data 具体一个job里面tasks(map/reduce)信息
2.resource manager
rm=ResourceManager(address='com.hunantv.datanode31', port=8088)
rm.cluster_applications().data 提交到rm的所有apps的信息
rm.cluster_application('application_1437445095118_265798').data 提交到rm的具体application的信息
{u'a