老练的集群管理员告诉你:珍惜生命,使用 E-HPC 批量执行命令

  笔者曾经是一个苦逼的HPC集群管理员,上百个节点的集群安装、配置,机器多了,什么鸟事都遇到,加班加点想起来就一把辛酸泪。直到我用上 E-HPC,一键创建集群,10分钟无人值守自动安装完成,从此生活惬意多了。需要扩容机器也只用点点鼠标,泡杯枸杞的功夫,新节点已经安装好并且自动加入调度系统了,齐活。

  最近 E-HPC 新出了一个批量执行命令的功能,我试了下发现很管用,可以省我不少时间。作为集群管理员,平时我也并不轻闲,运维一个HPC集群杂七杂八的事情挺多的,一旦集群规模上去了,看起来简单的任务,真做起来也不简单。打比方说,现在需要在所有计算节点上,安装上telnet软件。

  如果一个年轻的管理员来干,说不定想要 ssh 登录到每一台机器上,然后复制粘贴安装命令。集群规模达到几十台节点,估计就得放弃另想办法了。不过作为一个老练的集群管理员,这点事还难不倒我,以前自然是用 pssh 搞定:

  • 生成一份计算节点列表(别忘了最近扩容过,最好经常更新这个表)

20180902201347.png

  • 运行 pssh 安装软件,加上输出回显并且重定向,这样如果出错可以看日志

    pssh -h hostfile -i -A yum install -y telnet | tee install.log
  • 往回翻日志,或者批量运行另一条检查结果的命令

20180902201854.png

  如果使用 E-HPC 的批量执行命令功能,这个工作就很容易了:E-HPC 控制台上,进入“执行命令”界面,选择“批量执行”功能,勾上计算节点,输入每台节点上要执行的命令,回车,搞定。

20180902181903.png

  “历史命令”页里,每台节点上执行的日志一目了然,不会混在一起:

20180902182521.png

  整个过程没发觉有什么需要特别操心的,节点数量没有限制,超时时间可以自己设置。

  不论是不熟悉系统运维的年轻管理员,还是像笔者一样老练的管理员,都试试 E-HPC 吧,有限的生命,不用再挣扎在繁杂的命令行和机械的操作中了。


  弹性高性能计算(E-HPC)是面向教育科研,企事业单位和个人的一站式公有云HPC服务。E-HPC提供批量执行命令(Clusterun)功能,让用户在web终端上就可以管理大规模HPC集群,完成日常运维工作。
  除了安装软件,您还可以用它修改系统配置、查杀僵尸进程、管理在线用户等等,无限制定制您需要的功能。以前需要登录机器完成的工作,现在都可以在 E-HPC 控制台上,一个命令完成,欢迎试用 https://ehpc.console.aliyun.com

ehpc-console-noname.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值