Nccl allreduce && BytePS原理

最新推荐文章于 2024-01-04 14:47:02 发布

weixin_30593443

最新推荐文章于 2024-01-04 14:47:02 发布

阅读量934

点赞数 1

文章标签： python

原文链接：http://www.cnblogs.com/deepllz/p/11347960.html

版权

一、Nccl AllReduce基本原理：

allreduce是collective communication中的一种，其他种类的还有：Broadcast、Scatter、Gather、Reduce等

具体含义可以参考文档：https://images.nvidia.com/events/sc15/pdfs/NCCL-Woolley.pdf、

其中nccl采用一种Undirectional-Ring的单向环算法，可以实现同步时间与卡的个数无关，以BroadCast为例：

假设有4块GPU，传输的数据量为N，传输带宽为B（单机多卡间的传输带宽可以通过cuda/sample下的p2pBandwidthLatencyTest得到），如果按照顺序发送的方式，完成整个BroadCast的时间（同步时间）为：(4-1)N/B，即传输时间与卡的个数成正比.

如果将N大小的数据分成S份，然后GPU0

最低0.47元/天解锁文章

weixin_30593443

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Nccl allreduce && BytePS原理

一、Nccl AllReduce基本原理：allreduce是collective communication中的一种，其他种类的还有：Broadcast、Scatter、Gather、Reduce等具体含义可以参考文档：https://images.nvidia.com/events/sc15/pdfs/NCCL-Woolley.pdf、其中nccl采用一种Undirect...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。