前段时间装了Slurm,用了一下感觉很爽,比起SGE各种复杂,Slurm简单明了,让人一目了然,给人化繁为简的清新感觉。下面先介绍一下slurm和SGE的前世今生。

  SGE原名为CODINE/GRD, Sun公司2000年收购后改名为Sun Gride Engine,并于2001开源,这是Sun对开源界又一大贡献,可惜Sun太早死了,唉。。。随后SGE在Sun怀抱里茁壮成长,但不幸的是Sun在2010被Oracle收购了,Sun对业界贡献非常大,失去Sun对业界是非常非常大的损失。为了表达对Sun的敬意,本文对已改名的SGE仍统称其为SGE。

  Oracle对待Sun的遗产就像是唯利是图继父对待孩子一样,卖掉的卖掉,关闭的关闭,mysql的悲剧在SGE身上重演,Oracle把SGE改名为OGE(Oracle Gride Engine),并取消开源成为收费项目。这段时间是SGE最昏暗的日子,许多用户抗议Oracle的做法而转用其他作业系统,SGE一下失去了很多用户,前景黯淡。SGE社区为了挽救SGE项目,分别成立了Son of Gride Engine和Open Grid Scheduler项目,并继续开源和独立发展。

随后一家名为Univa公司宣称聘用了原SGE项目的核心成员,并在SGE基础上推出Univa Grid Engine,SGE项目的创立者Fritz Ferstl担任该公司的CTO并继续领导Univa Grid Engine项目。2013年10月,Univa宣布获得Oracle的授权,负责提供OGE的商业版本。而Open Grid Scheduler则得到Oracle的支持继续开源,但其技术支持服务收费。Son of Gride Engine项目则完全遵循GPL协定,继续开源并免费,但因没得到Oracle的支持而且缺乏原SGE核心工程师参与而被持疑。

实际上,Open Grid Scheduler源码和商业版的OGE是一致的,没有不同,因此认可和接受度比较高。


在SGE最昏暗日子,流失的用户大部分转用Slurm和Torque,Slurm因此获得长足的发展。2011年至今Slurm高速发展大幅提升,获得大多数HPC的认可和使用,这其中也包括了天河2号。Slurm项目是2002年由 Lawrence Livermore National Laboratory等几家公司协作开发,而Slurm项目领导者Morris Jette当时正在 Lawrence Livermore National Laboratory担任该项目的开发管理。

  Slurm给人感觉是专为HPC量身定做的,不支持windows,小巧精干而且简单易用,结构清晰明了,让人一目了然。而SGE则大而全,除了各类Unix和Linux还支持Windows,支持跨多个域/多个网段,复杂而晦涩难懂。

  新版的Slurm使用Munge进行验证,简单方便,该特性对拥有大量节点的HPC非常适合;而SGE仍旧使用CA证书验证,复杂不易于使用。另外在定义主机列表方面,Slurm非常方便,比SGE胜出一筹。


未完,待续....................

相关文章:

详解:SGE的设置和安装

详解:slurm的设置和安装