如何建立一个GPU加速的研究计算集群(一)

世界上某些最快的计算机是集群组成的。集群是有多个计算机通过高速网络连接起来的一个计算系统。集群计算机比单台计算机可以达到更高的可用性,可靠性和伸缩性。随着对基于GPU的高性能计算采用越来越广,英伟达GPU逐渐成为世界上最厉害的超级计算集群的一部分。世界前500的超级计算机中,包括差不多50个采用了英伟达的的GPU,并且目前世界上最快的计算机泰坦,使用了大约18000个英伟达开普勒GPU。

在这个帖子中,我将会一步一步的介绍设计、部署和管理一个小型的GPU集群整个过程。我会介绍GPU集群的组成部分以及管理的软件技术堆栈。目标是使用一个最少的代价建立一个GPU集群。

构建一个小型研究的GPU计算集群的动机是多种多样的:
1.对生产系统的性能有一个感觉和预估。
2.将你的应用移植到GPU分布式计算上去。
3.调整GPU和CPU的平衡。
4.将集群作为一个开发平台
5.对一个小型的GPU集群是相对小的。

下图展示了建立一个小型GPU集群的步骤。
选择硬件-》确保空间和电源功率还有冷却-》组装-》管理节点安装-》计算节点安装-》管理监控-》运行程序
我们现在了解下这个过程的细节:

  1. 选择硬件
    选择正确的硬件共有两个步骤:
    步骤一:
    a).节点硬件配置。这是集群节点的详细规格:每个节点包含下面的组件。
    1.CPU
    2.主板,该主板拥有两个PCIe x16 Gen2/3 接口。主要是为了teslaGPU.另外要有一个PCIex8的插槽,主要是为了其他的显卡的用的。
    b).两个网卡插口
    c).最少最少16-24G DDR3 RAM
    d).电源。应该能够扛得住CPU和GPU的消耗。
    e).二级存储,固态硬盘或者是SATA。
    GPU板子应该能够允许两个PCI插槽插入,所以确保这些插槽能够分开插下。
  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值