服务器集群
服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器,集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行。
集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接;各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。
链接:https://www.jianshu.com/p/45e3f88086f3
PBS任务管理系统
PBS (Protable Batch System) 是一种常用的作业管理系统,其他类似的还有 LSF 和 SLURM。
PBS会根据一个集群上的可用计算节点的计算资源管理和调度所有计算作业(无论是批处理作业还是交互式作业)。
目前有两个版本:OpenPBS(开源)和PBSPro(商业)。TORQUE:基于PBS项目的开源软件,可以认为是开源的OpenPBS的改进版。主要包括:
PBS Server:运行于集群的管理节点。创建并接受作业、修改作业、激活调度器(PBS Scheduler)以及通知PBS执行器(PBS Moms)执行作业
PBS Scheduler:根据资源管理器获知各个节点的资源状况和系统的作业信息生成相应的作业优先级列表
PBS Moms:每个节点均有一个后台进程,该进程真正启动和停止提交到该节点的作业
常用PBS命令
https://blog.csdn.net/weixin_42121412/article/details/116929730
qstat -a //列出所有任务
qstat -au username //列出该用户的任务
qselect -u username | xargs qdel //删除用户正在跑的任务
qdel -W force ID //强制删除正在跑的某个任务