这次希望看一下,ncclAllReduce( )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。
其中,cudaLaunchKernel的参数的数据流如下图所示:
我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;
是如何关联到fn上的。
这次希望看一下,ncclAllReduce( )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。
其中,cudaLaunchKernel的参数的数据流如下图所示:
我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;
是如何关联到fn上的。