如何建立一个GPU加速的研究计算集群(二)

本文介绍了如何建立GPU加速的研究计算集群,包括主节点使用Rocks Linux distribution的安装,计算节点的添加,以及利用NVIDIA-SMI进行GPU系统的监控和管理。NVIDIA-SMI提供了GPU温度、系统信息、系统状态的监控,并支持多种配置模式,如默认计算模式、排他进程模式等。
摘要由CSDN通过智能技术生成

4 . 主节点安装

建议使用开源的操作系统 Rocks Linux distribution来安装主节点,Rocks 是一个高可定制化,易于安装的适合集群计算的操作系统,它默认安装集群计算组建例如MPI, 安装文档地址如下:Rocks user guide,这里我仅仅罗列下基本的安装步骤:

  1. 根据第三章的步骤进行基于CD的安装。
  2. 安装NVIDIA和CUDA的环境包以及工具
  3. 安装内部网络网卡驱动,具体参考你的网卡厂商
  4. Nagios® Core™是个开源网络监控应用,当网络出错或者变好的时候,它会根据你的设置而发出告警。 你可以用这里的说明书连接来安装它。
  5. NRPE Nagios 插件可以让你在远程机器上执行Nagios插件,这样你就可以远程监控资源了,具体安装说明点这里

5. 计算节点的安装

通过一下步骤来安装计算节点的软件:

  1. 在主节点上,打开一个命令行,输入如下命令:insert-ethers
  2. 选择 “Compute Nodes” 要添加的节点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值