大模型行研：算力加速的技术标准 - RDMA

程序员笑武

于 2024-08-30 20:03:11 发布

阅读量1.4k

点赞数 20

文章标签：网络人工智能 prompt microsoft pytorch 语言模型

本文链接：https://blog.csdn.net/m0_59164304/article/details/141726215

版权

一、什么是 RDMA

远程直接内存访问 (RDMA) 是一种允许联网计算机直接访问彼此主内存的技术，无需涉及处理器、缓存或操作系统，是一个由多个公司和组织合作开发的技术标准。这种旁路方法减少了 CPU 负载并降低了延迟，从而实现更快的数据传输速度，非常适合需要高速数据传输的应用，例如高性能计算 (HPC) 集群、数据中心网络和大数据分析。

可以这样形象化理解：

以前：快速是需要送到大楼的收发室里，再由收发室送到收件人手里，收到收发室大爷的处理能力影响，同时处理的快递数量有限，且有延迟
现在：快递从发件人直接送到收件人手里

二、RDMA 与 TCP/IP 的区别

特性	RDMA (远程直接内存访问)	TCP/IP (传输控制协议/互联网协议)
定义	一种网络技术，允许应用程序直接访问远程主机的内存	一种网络协议，用于在网络中传输数据
传输方式	直接内存访问，无需操作系统内核介入	通过操作系统内核进行数据传输
延迟	低延迟，适合高性能计算	延迟较高，不适合高性能计算
带宽	高带宽，适合大量数据传输。	带宽受限于操作系统内核处理能力
CPU占用	低CPU占用，减少对主机CPU的依赖	高CPU占用，增加对主机CPU的需求
数据传输	直接在内存中传输数据，无需复制到内核空间	数据需要在用户空间和内核空间之间复制
可靠性	通常不提供可靠性保证，需要应用程序处理	提供可靠性保证，如TCP的三次握手和数据确认
适用场景	适合高性能计算、存储和数据中心应用	适合广泛的网络应用，如Web浏览、文件传输等
配置复杂度	配置复杂，需要特定的硬件和软件支持	配置相对简单，广泛支持各种操作系统和设备
成本	硬件和软件成本较高	硬件和软件成本较低
安全性	需要额外的安全措施来保护数据传输	通过TCP/IP协议提供基本的安全保障

三、领导者 NVIDIA 的 RMDA 实现方式

1、单机多卡

简单理解：一块主板上多个 GPU，有三种不同场景下的应用

特性	GPUDirect	NVLink	NVSwitch
定义	一组技术，增强 GPU 的数据移动和访问能力	用于连接多个 GPU，常用于 < 8 个 GPU 卡	用于连接多个 GPU 和 CPU，常用于 > 8 个 GPU 卡
目的	加速与网络和存储设备的通信，支持 GPU 之间的 P2P 传输和内存访问	提供 GPU 之间的高速、低延迟连接，主要限于 GPU 之间的连接	提供 GPU 和 CPU 之间的高速、低延迟连接，支持复杂的多 GPU 拓扑结构，扩展性较好
工作方式	通过 PCI Express 直接访问 GPU 内存，支持 RDMA 和 P2P 传输	通过专用的物理连接和协议，实现 GPU 之间的直接通信	通过专用的物理连接和协议，实现 GPU 和 CPU 之间的直接通信，并支持多 GPU 之间的通信
适用场景	适用于需要频繁在 GPU 和 CPU 之间传输数据的应用程序，如科学计算和数据分析	适用于需要多个 GPU 协同工作的高性能计算和深度学习应用	适用于需要多个 GPU 和 CPU 协同工作的大规模并行计算和深度学习应用

2、以 RMDA 为核心的多机多卡

四、值得关注的 CXL

CXL（Compute Express Link）是一种先进的互连技术，由英特尔在2019年提出，旨在实现计算、内存、存储和网络的解耦，并在CXL总线上提供持久内存。其中较新的版本 CXL 3.0，是基于PCIe 6.0，支持更高的带宽和更低的延迟，并增加了设备热插拔、电源管理和错误处理等新功能

成员包括：英特尔、AMD、谷歌、微软、华为、三星、SK海力士、美光、Marvell、澜起科技等

CXL 和 RMDA 的综合对比

延迟：CXL 的延迟通常低于 RDMA。CXL 的访问延迟约为 170 至 250 ns，而 RDMA 的延迟约为 2 μs
带宽：虽然两者都提供高带宽，但 CXL 通过 PCIe 物理层实现更高的传输速率
内存扩展：CXL 更适合内存扩展，因为它允许 CPU 直接访问远程内存，而 RDMA 主要用于网络传输
应用场景：CXL 更适合内存密集型应用和需要低延迟访问的场景，而 RDMA 更适合需要高带宽和大规模互联的场景

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述