大模型分布式并行技术--数据并行优化

通信融合

​从上文知道数据并行中需要同步每一个模型梯度, 这是通过进程间的 Allreduce 通信实现的。如果一个模型 有非常多的参数,则数据并行训练的每一个 step 中会有非常多次的 Allreduce 通信,下图为融合梯度同步示例。

融合梯度同步示例

通信的耗时可以从通信延迟(lantency) 和数据传输时间消耗两方面考虑。单次通信延迟时间相对固定, 而 传输时间由通信的数据量和带宽决定。减少总的通信消耗, 可以通过减少通信频率来实现, 通信融合是一个可 行的手段,通过将 N 个梯度的 Allreduce 通信合并成一次 Allreduce 通信,可以减少 N- 1 次通信延迟时间。

常用的 Allreduce 融合实现方式是在通信前将多个梯度 tensors 拼接成一个内存地址连续的大 tensor,梯度同 步时仅对拼接后的大 tensor 做一次 Allreduce 操作。参数更新时将大 tensor 切分还原回之前的多个小 tensors,完 成每个梯度对应参数的更新。

通信计算重叠

除了降低绝对的通信耗时,还可以从降低整体训练耗时角度来优化,可以考虑通信和计算的异步流水实现。 数据并行中的梯度同步 Allreduce 通信是在训练的反向过程中进行的, 而 Allreduce 后得到的同步梯度是在训练 的更新过程中才被使用, 在反向中并没有被使用。也就是说上一个梯度的通信和下一个梯度的计算间并没有依 赖,通信和计算可以并行,让两者的耗时相互重叠掩盖,减少反向的耗时,下图为通信计算并行相互重叠示例。

通信计算并行相互重叠示例。

通信和计算的重叠通常是将通信和计算算子调度到不同的流 (stream) 上实现的。通信算子调度到通信流, 计 算算子调度到计算流, 同一个流上的算子间是顺序执行的, 不同流上的算子可以并行执行, 从而实现反向中梯 度通信和计算的并行重叠。需要注意的是, 当通信和计算被调度在不同的流上执行时, 需要考虑两个流之间依 赖和同步关系。

在梯度同步的数据并行场景中,开发者需要需要通过 stream 间的同步功能保证:

  • 某个梯度 Allreduce 通信进行前,该梯度的反向计算已经完成。

  • 某个梯度对应参数的更新计算开始前,该梯度的 Allreduce 通信已经完成。

以上两个方法是数据并行中常用的减少通信时间消耗, 提高并行加速比的优化策略。如果能做到通信和计 算的重叠程度越高,那么数据并行的加速比越接近 100% ,多卡并行对训练吞吐提升的效率也就越高。

PS:欢迎扫码关注公众号^_^.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
vc++全版本组件大全 VC++运行时(Visual C++ Runtime)是VC++开发环境中用于支持C和C++程序运行的基础库集合。这些库包含了执行C/C++程序所必需的基本函数和数据结构,例如内存管理、字符串操作、输入输出处理、异常处理等。VC++运行时库分为静态库和动态库两种形式,以适应不同类型的项目需求。 静态链接库 vs 动态链接库 静态链接库(Static Linking Libraries):在编译时,静态库的代码会被直接嵌入到最终生成的可执行文件中。这意味着每个使用静态库的程序都会包含库代码的一个副本,导致最终程序的体积较大,但不需要外部库文件支持即可独立运行。在VC++中,静态链接库的例子有LIBC.lib(用于单线程程序)和LIBCMT.lib(用于多线程程序)。 动态链接库(Dynamic Link Libraries):与静态链接相反,动态库的代码并不直接加入到应用程序中,而是在程序运行时被加载。这使得多个程序可以共享同一份库代码,节省了系统资源。VC++的动态运行时库主要通过msvcrt.dll(或其变体,如MSVCRTD.dll用于调试版本)实现,与之配套的导入库(Import Library)如CRTDLL.lib用于链接阶段。 运行时库的版本 VC++运行时库随着Visual Studio版本的更新而发展,每个版本都可能引入新的特性和优化,同时保持向后兼容性。例如,有VC++ 2005、2008、2010直至2019等多个版本的运行时库,每个版本都对应着特定的开发环境和Windows操作系统。 重要性 VC++运行时对于确保程序正确运行至关重要。当程序在没有安装相应运行时库的计算机上执行时,可能会遇到因缺失DLL文件(如MSVCP*.dll, VCRUNTIME*.dll等)而导致的错误。因此,开发完成后,通常需要分发相应的VC++ Redistributable Packages给最终用户安装,以确保程序能够在目标系统上顺利运行。 安装与部署 安装VC++运行时库通常是通过Microsoft提供的Redistributable Packages完成的,这是一个简单的过程,用户只需运行安装程序即可自动安装所需组件。对于开发者而言,了解和管理不同版本的运行时库对于确保应用程序的广泛兼容性和可靠性是必要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值