LLM分布式训练第三课-模型并行之流水线并行

本文介绍了在深度学习大模型训练中,由于模型过大无法容纳于单个GPU的问题,提出了模型并行化的概念,重点讲解了流水线并行(Pipeline Parallelism)的工作原理和优化方法,包括Gpipe、1F1B、PipeDream等策略,以提高训练效率并减少算力浪费。
摘要由CSDN通过智能技术生成

在实际的生产中,在训练时面对的压力主要是模型太大,无法装载进一块GPU中。

  举一个例子,一般来讲现代LLM训练采用的精度都是FP16或者BF16,采用这种精度来训练模型,如果1个模型参数,要占用2个字节,也就是16bit。

  在上一章开头的7B案例已经讲过,如果对一个7B模型用BF16或者FP16来进行预训练那么现在市面上最高显存的GPU,如H100/80G也是无法进行装载的。因此由于这个物理上的硬件限制,在训练时我们都会进行模型并行化处理。

  何为模型并行化,总体来说分为纵向和横向的模型并行化拆分,即:

  • 流水线并行PP(Pipeline Parallelism)

  • Tensor并行TP (Tensor Parallelism)

流水线并行

  流水线并行PP(Pipeline Parallelism),是一种最常用的并行方式,也是最初Deepspeed和Megatron等大模型训练框架都支持的一种并行方式。

  什么是流水线并行呢?简而言之是把一个参数量较大的模型按照不同的层进行划分,将多个模型的层尽可能均匀的分布在不同的GPU显存上,来起到装载更大模型的能力。

图片

PP的通信和运行方式

   如图所示,假设一个大模型有4层,采用PP的方式,可以

  • 17
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值