LLM-预训练-Megatron-LM-学习笔记-02:深入理解 Megatron-LM(2)原理介绍

本文详细介绍了张量模型并行(Tensor Model Parallelism)的原理,包括行并行和列并行,以及在Transformer中的应用。同时,探讨了流水线模型并行(Pipeline Model Parallelism)和混合并行设置,分析了不同并行方式对通信成本和计算效率的影响。通过Megatron-LM,阐述了如何在大规模语言模型训练中利用这些技术提高性能。
摘要由CSDN通过智能技术生成

本篇文章对张量模型并行、流水线模型并行的原理进行简单介绍。

一、张量模型并行(Tensor Model Parallelism)

1、原理

这里通过 GEMM 来看看如何进行模型并行,这里要进行的是 X A = Y XA = Y XA=

  • 17
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值