【分布式】入门级NCCL多机并行实践 - 02

最新推荐文章于 2024-07-08 18:04:35 发布

2401_84433974

最新推荐文章于 2024-07-08 18:04:35 发布

阅读量2.1k

点赞数 51

文章标签：分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84433974/article/details/138237893

版权

其中用于实现多节点分布式的组件有以下三个：

Distributed Data-Parallel Training (DDP)
RPC-Based Distributed Training (RPC)
Collective Communication (c10d)

分布式结构

从上图可知，1.6版本左右的PyTorch调用结构如下，最后在ProcessGroup.hpp可以找到对NCCL、Gloo和MPI的调用。

而这些蓝色的部分就是基本的分布式通讯库，他们负责实现通讯和一部分计算功能。

2. 通讯方式

已知显卡与主板通过PCIE相连，任何数据都要从PCIE和CPU穿过，这么做的效率肯定是很低的。

因此在GPUDirect技术出现以后，我们可以把GPU通信分为GPU控制的GPU通信和CPU控制的GPU通信两种。感兴趣相关的细节可以通过此文查看：【研究综述】浅谈GPU通信和PCIe P2P DMA

我们知道通信技术有很多，例如DMA，P2P。DMA和P2P都是一种能力，而非具体的协议。

2.1 DMA & P2P

DMA(Direct Memory Access，直接内存访问)，允许在计算机主板上的设备直接把数据发送到内存中去，数据搬运不需要CPU的参与。

传统内存访问需要通过CPU进行数据copy来移动数据&

最低0.47元/天解锁文章

关注

51
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄174天

267: 原创

-: 周排名

-: 总排名

17万+: 访问

: 等级

6475: 积分

2545: 粉丝

3442: 获赞

20: 评论

3538: 收藏

私信

关注

热门文章

分类专栏

程序员 192篇
2024年程序员学习 21篇

最新评论

Web前端最新2024视觉SLAM的研究改进方向_视觉slam前端改进，2024年最新web开发工程师面试题
星途码客: 非常感谢大佬分享的IT文章！内容深入浅出，让我受益匪浅。不仅拓宽了我的技术视野，还为我提供了实用的学习方法和思路。期待未来能继续阅读更多精彩内容，共同在IT领域成长进步！
2024年前端最新Ant Design Vue子表格展开只展开一行，其他行折叠，2024年不想被公司优化
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年最全如何理解Vue实例的生命周期，牛笔了
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年前端最新Ant Design Vue子表格展开只展开一行，其他行折叠，2024年不想被公司优化
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
深入分析JavaWeb Item38 -- 监听器(Listener)快速学习_item监听器 java
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。