在云计算解决安全隐忧并成为IC界主流运算平台之前,私有的服务器集群系统仍然是各大IC公司的计算资源平台首选。
现在主流的服务器集群管理系统包括lsf,openlava,SkyForm,三者都属于lsf一系。lsf是IBM公司开发的服务器集群管理系统,性能优异,且有商业支持,平台组件丰富,十分易用,唯一的问题就是价格昂贵。openlava是兼容lsf的开源软件,最终版本为openlava4.0,相当于早期的lsf,其主要的用法和功能类似于lsf,因而lsf用户基本可以无缝切换到openlava,并且它开源免费免费,受到广大IC厂商的欢迎。SkyForm脱胎于openlava,后来经过天云软件的重新开发,也避免了重用IBM原始代码的侵权问题,其用法兼容与lsf和openlava,有商业支持,平台组件丰富,收费(价格应该不太贵,没有咨询过),属于一种折中的选择。
由于lsf和SkyForm收费,考虑到国内IC公司一贯勤俭节约,openlava的用户体量应该是最大的,所以本文主要针对openlava来讲,其它服务器集群管理系统有共通之处。
对IC-CAD工程师而言,对openlava需要关注一下几点。
1. openlava基本命令
2. openlava配置。
3. 硬件状况采集,机器/服务异常报警。
4. 针对用户的openlava状态(job/host/queue)信息展示系统(最好为GUI界面工具或者网页,lsf为网页)
5. 更进一步的基本数据采集,存储,分析,通过更多个性化的插件化工具辅助将openlava的应用智能型和便捷性提升到更高的层次。
openlava的安装请参照https://my.oschina.net/liyanqing/blog/1633330。
1. openlava基本命令
Basic Command |
Usage |
bsub |
Submits a batch job to openlava |
bjobs |
See the status of jobs in the LSF queue |
bkill |
Kill a running job (’bkill 0’ kills all the job one user submits) |
bqueues |
Displays information about queues |
bhosts |
Displays hosts and their job condition. |
lshosts | Display hosts and their resource condition (cpu/memory). |
lsload | Display host and their load condition (cpu/memory). |
•bsub
%bsub -o [fileName] : Save bsub standard output into the log file (for debug).
%bsub -e [fileName] : Save bsub standard error into the log file (for debug).
%bsub -n [number] : Occupied specified number of processor to run the job.
%bsub -q [queueName] : Run the job on the specified queue.
%bsub -m [hostName] : Run the job on the specified host.
%bsub -P [projectName] : Declare which project the job is for.
%bsub -Is : Submit a batch interactive job and creates a terminal with shell mode
Be sure to use this option if you want to start up application with GUI
%bsub -R : Runs the job on a host that meets