视频教程在这:
集合通信协议LL、LL128、simple出现原因?NCCL源码解读介绍_哔哩哔哩_bilibili
三种通信协议:Simple、LL、LL128
LL:L(ow)L(atency)协议优化NCCL小数据量传输,小数据量情况下,打不满传输带宽时,优化点同步带来的延迟。低延迟,8字节原子存储(LL):提供低延迟的通信,原子存储操作使用8字节。
LL128:L(ow)L(atency)128协议依赖硬件(NVLink)实现。LL128能够以较低的延迟达到较大的带宽率,NCCL会在带有NVLink的机器上默认使用该协议。低延迟,128字节原子存储(LL128):与LL类似,但原子存储操作使用128字节,某些情况下可能提供更好的带宽效率。
Simple:简化的协议,实现上更简单,针对不需要特别优化的场景。
NCCL 使用 3 种不同的协议:LL、LL128 和 Simple,它们具有不同的延迟(~1us、~2us 和 ~6us)、不同的带宽(50%、95% 和 100%),以及其他影响其性能的差异。
为啥会出现这三种集合通信协议呢?
哈哈哈,直接看视频和ppt
集合通信协议LL、LL128、simple出现原因?NCCL源码解读介绍_哔哩哔哩_bilibili