目录
背景
随着CentOS Linux 7的生命周期将于2024年6月30日结束,之后不再有CentOS Linux的更新版本。EDA环境大量使用了CentOS作为服务器操作系统,现在是时候重新评估明年6月以后该选择什么Linux了。
对于CentOS Linux的用户,迁移到Red Hat Enterprise Linux(简称RHEL)无疑是个简明直接的迁移路线。从CentOS迁移到RHEL,涉及重新安装系统、配置EDA环境、加入HPC集群等步骤。为了高效、安全地完成迁移,我们可以通过自动化工具来完成这个过程。
接下来,我们将详细介绍如何利用Augur自动化运维工具将LSF集群从CentOS迁移至RHEL。
迁移过程
1.部署PXE
首先,使用Augur来部署PXE服务器。在Augur自动化运维场景界面中,找到“部署PXE”,并点击【运行】按钮。
在弹出的运行对话框中,选定需要安装PXE服务的主机。完成必要的信息填写后,点击【确定】按钮执行该场景。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
至此,PXE服务器已成功部署。
2.备份数据
在进行系统迁移之前,一定要备份集群中的关键数据和配置文件,以防止意外情况发生。
(1)备份NIS数据
在Augur自动化运维场景中,找到“备份NIS”,然后点击【运行】按钮。
在弹出的运行对话框中,选择需要备份的NIS服务器及备份到的NFS位置(路径可修改),并填写NIS服务器所在的网段。完成填写后,点击【OK】按钮来执行该场景。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
(2)备份共享存储数据
备份共享存储的数据,此处以NFS为例,在自动化运维场景中找到“备份NFS”,然后点击【运行】按钮。
在弹出的运行对话框中,选择需要备份的NFS服务器,并在预留的空框中输入需要备份的目录。在确认输入无误后,点击【OK】按钮。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
3.升级LSF集群
升级LSF集群,我们需要遵循以下步骤:首先,我们需要优先升级那些作业量较少、处于相对空闲状态的计算节点,这将有助于最大化地降低升级过程对集群运行的影响;接下来,我们针对候选管理节点进行升级操作;最后,再升级LSF主管理节点。采用这种逐步、分阶段的升级方法,可以更好地保证LSF集群在升级过程中的连续运行,维护其稳定性。
(1)停止接收作业
在升级计算节点前需先停止节点接收作业。可在Augur自动化运维平台中找到“节点停止接收Job”,点击【运行】以执行此操作。
在弹出的运行对话框里,选择要停止接收作业的节点(如LSF-node2-test),并输入LSF管理员用户名。点击【OK】开始执行此操作。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
(2)PXE装机
计算节点中的所有作业都完成后,可以用PXE进行自动操作系统安装。确保要升级到RHEL的服务器与PXE服务器在同一网段。服务器开机时,通过网络引导,将自动安装RHEL系统,如下图所示。
安装操作系统后,需要将服务器主机名重新设置为原始主机名。
由于PXE通过DHCP为服务器自动分配IP地址,我们需要在Augur服务器主机上修改对应服务器的IP地址。进行修改后,在服务器主机页面上,我们能看到LSF-node2-test主机当前的操作系统版本是RHEL 7.9。
(3)生成hosts文件
LSF要求节点主机名与IP实现双向解析。在PXE重新安装系统后,若节点IP发生变化,需要重新生成hosts文件。
可以在Augur自动化运维场景界面中找到“生成hosts”,点击【运行】以执行此操作。
在弹出的运行对话框里,选定需要重新生成hosts文件的主机,然后点击【OK】按钮来执行此操作。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
(4)加入到LSF集群
若您希望将升级后的节点重新加入LSF集群,并重新开始接收作业,您需要在自动化运维场景界面中点击“节点加入LSF集群”,然后点击【运行】按钮。
在弹出的运行对话框中,您需要选定加入LSF集群的主机,对应的共享存储服务器和NIS服务器。接下来,输入集群管理员的名称,以及共享存储在本地挂载的目录名称。完成这些输入后,点击【OK】按钮来执行此操作。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
4.加入到HPCinsights
节点加入LSF集群后,如果您希望重新将其纳入到HPCinsights的监控范围,您可以在自动化运维场景下查找到“加入HPCinsights监控”,并点击【运行】按钮。
在弹出的运行对话框中,首先选择LSF管理节点和HPCinsights节点,接着选择希望加入到HPCinsights监控的目标主机。由于HPCinsights节点中的HPCinsights安装目录需要挂载到本地,因此您还需要填写对应的本地挂载点名称。确认所有信息无误后,点击【OK】按钮来执行此操作。
若需要查看此场景的运行情况,您可以点击【历史执行】按钮以查阅相关操作记录。
通过下面的HPCinsights截图,可以看到lsf-node2节点已经成功添加到监控仪表盘的服务器列表中。这意味着您现在可以使用HPCinsights监控该节点的资源使用情况,以便更好地管理您的LSF集群。
至此,计算节点已成功从CentOS迁移到RHEL系统,并再次被加入到LSF集群和HPCinsights监控中。在实际环境中,可以批量选择计算节点进行迁移操作。对于LSF候选管理节点和主管理节点,这些节点同样能遵循以上流程,从CentOS系统迁移到RHEL上。
结语
作为红帽的高级代理商,我们始终坚持以客户为中心,致力于为用户提供卓越的服务体验。如果您目前正在寻求一种简洁、高效的方式,以将您的CentOS系统升级为红帽企业Linux,或者您希望更深入地了解如何利用Augur自动化运维工具来简化您的运维流程,我们随时欢迎与您对话。
请通过电子邮件联系我们。我们的专业团队将提供协助,共同探讨符合您需求的解决方案。
关于Augur工具介绍,可以参考《自动化运维平台Augur》。关于HPCinsights工具介绍,可以参考《HPCinsights功能介绍》。如果您对这两款软件感兴趣,欢迎您通过电子邮件联系我们。
欢迎关注下方微信公众号【HPC常青园】,共同交流HPC集群管理经验和最佳实践。如果您有关于HPC集群的具体需求,欢迎邮件沟通交流:hpc@ivyent.cn。