tx2 fpga pcie无法读写_AI时代加速器互联高性能计算解决方案比较，FPGA+Ethernet VS GPU+NVSwitch...

最新推荐文章于 2024-06-06 14:00:26 发布

weixin_39531635

最新推荐文章于 2024-06-06 14:00:26 发布

阅读量359

点赞数

文章标签： tx2 fpga pcie无法读写

本文链接：https://blog.csdn.net/weixin_39531635/article/details/111346314

版权

当前AI模型的规模越来越大，对平台算力的要求也越来越高。2019年ICLR上的吸睛之作：Large Scale GAN Training for High Fidelity Natural Image Synthesis，使用大规模GAN,生成了质量可以以假乱真的图片。而这背后，是使用了512块TPU，密集训练24-48个小时的结果，因此训练这样一个规模的GAN模型所需的算力，可高达23PFLOPs(假设使用TPUv2)。（ICLR论文的深度解读参见笔者另一篇文章）

曼殊：ICLR‘19谷歌大规模GAN训练论文深度解读zhuanlan.zhihu.com

要对这么大规模的计算任务进行加速，无论是使用FPGA还是GPU的服务器，都需要对其进行互连，以扩放服务器对深度学习模型的算力。本文将从互连系统的可扩放性（scalability）的角度，介绍并比较基于FPGA和GPU的方案，在大规模深度学习应用中的开发状态和应用前景。

本文的讨论分别基于Microsoft的Project Catapult与NVIDIA的DGX系统，选择这两个方案进行比较的原因，是它们都实现了FPGA/GPU之间一致的两两互连，即互连后的系统逻辑上可以看成一整块超大FPGA/GPU。

1. FPGA的可扩放性解决方案，通过服务器间的以太网实现FPGA两两互连

在微软的Project Catapult中，FPGA通过自带的收发器直接接上连接服务器的 40 Gbps网线，并在FPGA内部实现了硬件的协议栈和路由器。这样，FPGA就利用了服务器主机间的以太网，实现了相互连接。在这样的互连方式下，每个FPGA作为网络中的结点，并无主从之分。另一方面，数据通过以太网传播，传输延迟非常小。因此，通过这种方式互连的FPGA，在逻辑上可以看成是一块超大的FPGA。这种互连规模可以扩展到整个数据中心的规模，极大的提高了可扩展性。

将FPGA连接到服务器主机之间的网络的具体做法是：将FPGA部署在计算机网卡（NIC）和外部以太网交换机之间，这一方案称作（bump-in-the-wire）。如上图所示[1]，FPGA绕过服务器主机的CPU和网卡，直接处理从网络上到来的数据，并将处理好的数据传输到网络上。这样就实现

最低0.47元/天解锁文章

weixin_39531635

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tx2 fpga pcie无法读写_AI时代加速器互联高性能计算解决方案比较，FPGA+Ethernet VS GPU+NVSwitch...

当前AI模型的规模越来越大，对平台算力的要求也越来越高。2019年ICLR上的吸睛之作：Large Scale GAN Training for High Fidelity Natural Image Synthesis，使用大规模GAN,生成了质量可以以假乱真的图片。而这背后，是使用了512块TPU，密集训练24-48个小时的结果，因此训练这样一个规模的GAN模型所需的算力，可高达23PFLOP...
复制链接

扫一扫