自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

KIDGIN7439的专栏

博客等级

码龄13年

254
原创

857
点赞

972
收藏

671
粉丝

关注

私信

热门文章

分类专栏

DeepSeek 9篇
cuda 6篇
RDMA 3篇
nccl 17篇
nvshmem 1篇
llm 1篇
brpc 10篇
计算机体系结构 3篇
网络流 51篇
匹配 10篇
最短路径 11篇
生成树 8篇
图的连通性 16篇
动态规划 18篇
数学 6篇
字符串 25篇
线段树 15篇
数据结构 27篇
codeforces 28篇
uva 11篇
编程语言 2篇
自然语言处理 5篇
动态树 3篇
平衡树 3篇
树链剖分 1篇
深度学习 1篇
推荐系统 1篇
搜索 3篇
leetcode 1篇
可持久化数据结构 1篇

最新评论

NVIDIA NCCL 源码学习（十一）- ring allreduce
GG_yuki: 大佬我有个问题，最近看了下allreduce和reduce-scatter的实现，我一开始以为两者应该（k-1）步应该差不多，然后发现reduce-scatter用了send和recvReduceCopy，而allreduce用的是directsend和recvReduceCopy。为什么会有这个差异呢？
NVIDIA NCCL 源码学习（十四）- NVLink SHARP
2401_83902725: 大佬，请教下NVLS的allreduce，在做reduce的那部分，每个大佬，请教下每个GPU是只负责读回P/N部分数据的求和么(假设每个GPU参与allreduce数据量是P，有N个GPU)，就因为只读回了部分数据，所以后续才需要再做brocast将这部分数据写给其他GPU？(或者说写给MC buffer)
NVIDIA NCCL 源码学习（十四）- NVLink SHARP
2401_83902725: 好嘞多谢
NVIDIA NCCL 源码学习（十四）- NVLink SHARP
KIDGINBROOK: 对；都可以的，只是一种实现方式
NVIDIA NCCL 源码学习（十四）- NVLink SHARP
2401_83902725: 噢噢，我刚刚提到的，”索引跳了四但只有第一个索引有值“ 这个说法是正确的对吧，这个值记录的rank的head节点。那有个新问题哈，为啥这里不干脆改成graph->intra[graph->nChannels+step] 呀，step在这里的值貌似恒为0么

自然语言处理

关注

关注数：文章数：5 文章阅读量：29899 文章收藏量：31

作者: KIDGINBROOK

这个作者很懒，什么都没留下…

展开

专栏收录文章