并行训练技术概述

继续开一个新专栏,这里主要收集一些并行训练的相关内容。

并行/分布式训练概述

首先想要说明的是,并行训练和分布式训练的概念其实都能讲,但前者可能更侧重于技术实施,而后者更倾向于设备,网络等资源层面的分布式,在本专栏,我们都一视同仁。从个人观点来说,如果偏软件点,说并行最好了。

并行训练是指将机器学习或者深度学习模型的训练任务给分解成多个子任务,然后在多个计算设备上去并行地进行训练。
实施并行训练的总体目标是提升总的训练速度,减少模型训练的总体时间。

为什么需要?

目前最热的方向之一就是大模型,这个大指的是参数量规模的大,我们下载一些开源LLM权重,几乎都是7B,70B,130B等等。而这些模型如果使用传统的单机单卡模式进行训练,那么花费的时间,说不定这个企业还没有等发布就倒闭了。
所以,我们就需要基于单机多卡甚至是多机多卡来进行大模型的训练。

如何实施?

为了实现这个目标,一般我们需要根据硬件资源、数据和模型规模的情况来考虑对计算任务、训练数据和模型来进行划分,从而进行分布式的存储和并行训练。
那么从数据和模型这两个维度考虑,并行加速通常有几种基本的分布式并行策略,包括数据并行、模型并行以及混合并行。

  • 数据并行是最常见的并行形式,它通过对训练数据进行划分并将同一个模型复制到多个设备上,从而并行地执行不同的数据分片。
  • 模型并行则是指将模型进行划分,将模型中的算子分发到多个不同的设备上,分别进行计算。
  • 混合并行则是考虑了对数据和模型的划分,将数据并行、模型并行等多种并行技术结合起来进行分布式训练。

接下来我们将慢慢的解析这些内容。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

染念

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值