利用torque搭建分布式程序运行环境
第一篇自己翻译英文资料以及自己总结的博客。
一、torque简介
Torque提供批量作业和分布计算机资源的控制功能。它基于原始的PBS(Portable batch system)项目开发的一款优秀的开源产品并且得到社区和专业的开发机构的支持。它在可扩展性、可靠性和功能上具有非常重要的意义,目前全世界数以万计的政府机构、学术机构、和广告网站都在使用它。torque可以被免费使用,修改,设置可以在授权文件规定的范围内发布出来。
torque可以整合Moab(工作集管理软件,能智能的安排工作,协调资源以使应用程序达到最优的性能,提高系统的利用率,达到组织目标),并且支持用户根据具体系统具体的应用场景定制。
torque有如下一些特性:
1、容错性(Fault Tolerance)
(1)额外的错误状态检测和处理
(2)支持脚本检查节点健康状态
2、调度接口(Scheduling Interface)
(1)扩展的队列接口给调度者提供额外并且更加精确的信息。
(2)扩展的控制接口允许调度者增加工作行