训练大模型的九大深度学习库;谷歌转向文字→视频生成的两大利器|AI系统前沿动态...

dc693a551a2f2701495735f6b66179f1.jpeg

 

训练大型深度学习模型需要极大的内存,才能储存中间层的激活函数输出和权重等。一些模型只能在单个GPU上训练,训练时须将批大小(batch size)设置得极小;还有一些模型则太大,单个GPU放不下。这些问题会导致在某些情况下模型训练效率极低,甚至无法训练。训练大型深度学习模型主要有两大方法:数据并行、模型并行。

当单个GPU的内存可以完整容纳整个模型时,这是可实现数据并行的最简单的情况。但此时,模型训练可用的batch size就变得较小,增加了训练难度。解决办法是将不同的模型实例放在不同的GPU上运行,每个模型实例计算不同的数据批次。 

1af8fe27656484fae709caa2b1da6692.png

每个模型实例都有相同的参数初始化,但在前向传播中,每个模型实例会收到不同的数据批次。每个模型实例产生的梯度会被集结起来,用以计算梯度更新,然后进行模型参数更新,更新后的参数将被发送到每个模型示例中。

当单个GPU无法容纳整个模型时,模型并行就十分必要。模型并行要求将模型切分到多个GPU上进行训练。模型并行是训练大模型的有效办法,但它的缺点是算力的利用率太低。因为同一时间只有一个GPU正在运行,其余GPU都将闲置。 

915aae665540ce0b11bffaa7e21f7c83.png

目前,数据并行和模型并行都取得了一定的进步,可以提升训练和推理时的效率。以下是业内流行的九大深度学习库。

1. Megatron-LM

Megatron是NVIDIA应用深度学习研究团队研发的大规模Transformer语言模型训练框架,支持模型并行(张量并行、序列并行与流水并行)与多节点预训练(multi-node pre-training),目前已支持BERT、GPT和T5模型。

链接:https://github.com/NVIDIA/Megatron-LM

2. DeepSpeed

DeepSpeed是Microsoft推出的深度学习库,用于训练Megatron-Turing NLG 530B和BLOOM等大型模型,在训练、推理和压缩三方面都有所创新。

DeepSpeed具有如下优点:

  • 可进行十亿乃至万亿级参数的稀疏/密集模型的训练/推理

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值