CPU+GPU异构集群搭建的总结说明

最新推荐文章于 2024-07-30 18:36:57 发布

generalAI

最新推荐文章于 2024-07-30 18:36:57 发布

阅读量7.1k

点赞数 2

分类专栏：人工智能机器学习 cuda c/c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liujiandu101/article/details/51278065

版权

人工智能同时被 3 个专栏收录

102 篇文章 4 订阅

订阅专栏

50 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

前面我们介绍了单机单GPU下的驱动安装，cuda Toolkit 和 SDK的安装，以及cuda基本编程

我们还介绍了SSH安全通信，NFS共享存储，MPICH安装以及MPI基本编程，这样二者的结合

基本实现了一个简单的CPU+GPU异构集群的搭建，下面我们在梳理一下，做一些总结性的说明。

CPU+GPU集群是一个异构系统，包括CPU节点和GPU节点，在CPU集群基础上GPU的加

入使得计算资源呈现异构化这些异构计算资源和基于它们的不同层次的并行计算能力，给并行程

序设计带来困难，主流的混合集群编程模型是MPI+CUDA，MPI负责进程间数据传输，CUDA 负

责GPU计算程序设计，MPI和CUDA都是基于C语言，所以它们可以兼容的写到一个c文件里。

CPU + GPU 异构集群搭建过程包括：串源模块的更换，GPU的连接，设备之间互连，操作系

统安装，GPU驱动安装，CUDA Toolkit和 SDK安装，CUDA编程测试，SSH安全通信，nfs共享存

储，MPICH安装，MPI编程测试，MPI+CUDA混合编程测试。下面再对各过程做一些基本的说明。

1. 由于GPU功率很大，主机一般不能支持安装GPU后的总电量，所以更换供电模块。

2. 设备之间的连接可以采用千兆以太网再连交换机的方式，也就是前面我们搭建CPU集群时设

备之间的连接方式，由于GPU的运算数据吞吐量巨大，如果要求很高可以使用Infiniband采用

PCIe插槽与Infiniband适配器连接，然后通过特殊数据传输线与Ifiniband交换机连接。

3. 操作系统安装，gpu驱动安装，cuda toolkit 和 SDK安装，细节在以前介绍过在此不做说明。

4. cuda编程测试。

5. SSH安全通信，hfs共享文件系统配置，MPICH 安装, mpd配置。

6. mpi编程测试。

7. mpi+cuda混合编程设计。

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。