实习的公司使用Condor集群系统进行数据计算,刚进去时花了点时间了解了一下,因为项目中特征提取、模型训练、评测等步骤的Condor脚本都不是我写的,我只负责提交已有的程序,因此学得很肤浅。
现在网络有关Condor系统的中文介绍基本上由这位同学翻译,公司给我参考的一份PPT也是直接从上面粘贴打印:
condor_q:显示当前运行任务列表(我一般用grep操作进行筛选)
condor_submit:提交计算任务
condor_rm (id):移除当前任务
计算任务有几个状态:IDLE(I),RUNNING(R),HELD(H)。一般如果HELD的话说明计算任务有问题。
一份国外的PPT:“当Condor 遇到Hadoop时的机遇和挑战”
http://www.csdn.net/article/2012-10-30/2811302
总的来说,Condor关注高吞吐量计算(High Throughput Computing,HTC),而不是高性能计算(High Performance Computing,HPC)。
MapReduce的执行需要内部的集群管理系统,负责在大量的共享计算机上分布和运行用户任务,这一点与Condor类似。