LLM-预训练:Megatron-LM (23.06版本)近期的改动

Megatron-LM的23.06版本发布,引入重大更新,包括对Rotary Positional Embedding和FlashAttention v1/v2的支持,改进了Zero并行下的partial checkpointing技术,并修复了模型保存/加载问题。此外,GPT模型的流水线并行实现进行了重构,现在支持在GPU总数动态变化时继续训练,提高了训练过程的鲁棒性。
摘要由CSDN通过智能技术生成

Megatron-LM 最新 release 的版本是 23.06:

https://github.com/NVIDIA/Megatron-LM/tree/23.06/megatron​github.com/NVIDIA/Megatron-LM/tree/23.06/megatron​github.com/NVIDIA/Megatron-LM/tree/23.06/megatron

相比之前的版本,有几个比较重大的更新,如下:

  • 增加了对 Rotary Positional Embedding 的支持。
  • 增加了对 FlashAttention v1 和 v2 的支持。
  • 在Zero并行的情况下(distributed-optimizer),增加了一些新的细粒度 partial checkpointing 的技术。
  • 修复了模型的 Checkpoint 保存/加载相关的问题。
  • Megatron-LM 中的 GPT 模型的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值