OpenLava是100%免费、开源、兼容IBM® Spectrum LSFTM的工作负载调度器,支持各种高性能计算和分析应用,在各大IC公司被广泛引用。
openlava开源免费,兼容LSF,是IC公司(尤其是中小型IC公司)的福音。但是由于种种原因,开源团队不再进行开发工作,且工具缺少配套的job/resource监控类工具,所以并不易用。以往的工作中,根据openlava使用中的实际需求,我开发过一些openlava辅助类工具,以帮助openlava的工具配置,数据采集,前台监控。出于资源共享的目的,我把数据采集和前台监控的功能采用标准python工具的格式进行了重新开发,命名为openlavaMonitor,开源到了github上,以方便大家下载使用 (地址https://github.com/liyanqing1987/openlavaMonitor)。
下面对工具做一下简单介绍,帮助大家了解。
1. 工具介绍
工具的使用分为两部分: 后台数据采集,前台数据展示。这一部分主要讲一下工具的前台展示部分。
工具为图形界面,包含4个页面,分别展示不同的内容。
1.1 第一个页面为JOB页,主要展示job相关信息。
在Job输入框输入job id,点击Check按钮,可以显示出job的关键信息,job的详细信息,job的memory使用量变化曲线。
其中job的memory使用量变化曲线十分有用,可以用来判断job的资源使用情况,用来debug job crash的原因(很多job crash都跟memory使用过量有关)。