文章目录
一、LSF(load sharing facility)
分布资源管理的工具,用来调度、监视、分析联网计算机的负载。
目的:通过集中监控和调用,充分共享计算机的CPU、内存、磁盘、license等资源。
一组安装了LSF软件的计算机组成了一个cluster。cluster内的资源统一监控和调度。
二、bsub命令
bsub [options] command [argument]
命令参数:
-q 选择队列
-i 指定输入文件
-o 指定输出文件,作业提交后标准输出信息会保存到这个文件中
-e 指定输出文件,作业提交后标准错误输出的信息保存到这个文件夹中
-n 指定作业需要的CPU核
-J 作业的名字
-m 丢job到指定的机器上
-I 交互式模式,此时终端不能输入
-Ip 提交job的时候提供虚拟terminal支持,如vim这种应用是需要terminal支持的
-R 指定当前任务的资源需求
-W 限定作业运行时间
xterm 打开终端
gnome-terminal 在单个窗口打开多个终端会话
bsub -n x -q queuename -R rusage[mem=10240] -i inputfile -o outputfile COMMAND
其中x代表了提交作业需要的CPU数,-q指定作业提交到的队列,如果不采用-q选项,系统把作业提交到默认作业队列。任务需要10G内存,inputfile代表程序需要读入的文件名,outputfile代表一个文件,作业提交后标准输出信息将会保存到这个文件。 COMMAN则是用户要运行的程序
使用8个cpu运行任务
bsub -n 8 /.... run.tcl -8 -log flow.log
三、 常用命令
3.1 bhosts
利用bhosts
命令可查看当前各节点的空闲情况
bhosts interhosts
3.2 bqueues
利用bqueues
可以查看现有队列信息
3.3 bjobs
利用bjobs
可以查看作业的运行情况,bjobs | wc 统计总的job数
利用bjobs -u name
可以查看用户下的具体任务
3.4 bkill
利用bkill
命令可以终止某个运行中或排队中的作业,
[ServerA@hmli] bkill 79726
Job <79722 > is being terminated
3.5 bhist
bhist -a:查看已经运行完毕的作业信息
3.6 busers
利用busers
可以查看用户信息