见多识广5：GPU的NVLink与InfiniBand_gpu集群 infiniband-CSDN博客

本文链接：https://blog.csdn.net/Liu_First/article/details/147660120

前言

写这个是因为我想了解一下在LLM推理过程中，GPU所使用的高速互联技术。主要知识来自Kimi和Qwen。我主要做整理。
其他参考文献：
https://zhuanlan.zhihu.com/p/647191585

一言以蔽之

NVLink主要用于单节点内部不同GPU之间的高速通信，InfiniBand主要用于不同节点之间的高速通信。

NVIDIA NVLink技术

由 NVIDIA 开发的 GPU 内部/机箱级高速互联技术，专为多 GPU 之间的点对点通信设计，提供更高带宽（如 NVLink 4.0 达 1 TB/s）和更低延迟（绕过 PCIe 总线）。
典型场景：单台服务器内的多 GPU 互联。

InfiniBand技术

InfiniBand是一种能力很强的通信技术协议，它特别适合计算机集群互联。原来主要是Mellanox公司在开发这项技术，2019年该公司被英伟达收购。2012年之后，随着高性能计算（HPC）需求的不断增长，InfiniBand技术的市场份额越来越高，并在2015年超过了50%，成为超级计算机的首选内部互联技术。
InifiBand的核心技术是RDMA（Remote Direct Memory Access，远程直接数据存取）协议。

技术层级协同

在实际系统中，两者常结合使用：
单机内部：通过 NVLink 实现 GPU 间的高速直连（如 8 个 A100 通过 NVLink 组成全互连拓扑）。
跨机互联：通过 Mellanox InfiniBand 连接多台服务器，构建超大规模 GPU 集群（如 NVIDIA DGX SuperPOD）。
这种分层架构既能利用 NVLink 的低延迟优势，又能通过 InfiniBand 的高扩展性满足分布式训练/推理需求。

对比表格

在这里插入图片描述

总结

NVLink 专注于同一节点内的GPU与GPU或GPU与CPU之间的高速通信，适用于需要密集GPU计算的任务，如深度学习和AI。
InfiniBand 则用于连接多个服务器或节点，支持大规模分布式计算和数据中心的高性能网络需求。
两者在高性能计算领域中相辅相成，NVLink优化了节点内的计算效率，而InfiniBand则确保了跨节点的高效通信。