带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...

 Datawhale论文 

来源:WhalePaper,负责人:芙蕖

WhalePaper简介

由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐(Res)等相关方向的论文解读和分享,后续将融入更多的方向。

开源地址:https://datawhalechina.github.io/whale-paper

本期活动

03488c969a1c28980863ceef1a2e4742.png

嘉宾简介

孙伟高现为上海人工智能实验室算法研究员,从事分布式训练算法与高效大语言模型建模的相关研究。在此之前,曾在2020至2022年间工作于华为图灵架构与设计部灵犀实验室,担任AI算法研究员,负责高效分布式训练算法的研究与落地。其于2020年博士毕业于华中科技大学人工智能与自动化学院,博士期间的主要研究方向为机器学习、凸/非凸优化及其工业应用等。其在国际顶级会议和权威期刊发表多篇论文,包括ICLR、RAL、IJCAI、IEEE Trans等,并拥有多项中美专利。

分享详情

论文题目:Linear Attention Sequence Parallelism

联合分享:OpenNLPLab

分享方向:大语言模型分布式训练

论文简介:

本文介绍了一种名为Linear Attention Sequence Parallel(LASP)的高效序列并行(SP)方法,专门针对基于线性注意力的高效大语言模型设计。传统的SP方法未能充分利用线性注意力特性,导致并行效率和可用性不佳。为此,作者设计了一种高效的点对点通信机制,利用线性注意力的右乘核技巧,大大降低了SP的通信开销。此外,作者通过进行内核融合和中间状态缓存来提高LASP的实际执行效率,使其在GPU集群上的实现更加硬件友好。另外,作者还确保了LASP序列并行与各种(切片)数据并行方法(比如DDP、FSDP、ZeRO系列)的兼容性,这对于在具有长序列和大批次的大型集群上进行分布式训练至关重要。作者在两种基于线性注意力的模型上进行了大规模实验,结果表明在128个A100 80G GPU与1B模型上,LASP可将序列长度扩展至4096K即4M,比现有SP方法长8倍且速度提升显著。

具体细节:

极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行

论文地址:https://arxiv.org/abs/2404.02882

分享时间:2024年4月24日(周三)19点

本场分享会在视频号、b站同步直播

进群参与

b85202fb7c585074f6bcb2c7d42b3411.jpeg

群满在公众号后台回复“paper”

0a995588bca043558a42d51f0d144443.png

一起“赞”三连

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值