【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

最新推荐文章于 2025-05-17 20:15:04 发布

PEAKKIZZA

最新推荐文章于 2025-05-17 20:15:04 发布

阅读量1.7k

点赞数 19

分类专栏：大模型并行文章标签：论文阅读自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/peakkizza/article/details/138005303

版权

阅读这篇文章之前建议先阅读：序列并行
本文链接：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2403.10266.pdf
文章源码：https://github.com/NUS-HPC-AI-Lab/OpenDiT

Abstract

为多维Transformer实现高效的序列并行性
关键思想是根据当前计算阶段动态切换并行维度，与应用传统的单维并行性相比，这种动态维度切换允许以最小的通信开销实现序列并行性。

1 Introduction

应用中涉及的长序列会导致大量的激活内存成本和极慢的生成速度，因此需要使用序列并行性。
许多应用程序跨不同维度执行注意力计算。现有的序列并行：
- Megatron-SP
- DeepSpeed-Ulysses
- Ring Self-attention
现有的序列并行假设只有一个维度的序列，他们仍然按照传统的注意力计划将注意力分散到并行性上，并产生不必要的通信。

最低0.47元/天解锁文章

博客等级

码龄6年

17
原创

269
点赞

234
收藏

166
粉丝

关注

私信

热门文章

分类专栏

并行 1篇
大模型 7篇
GPU 1篇
数据压缩 1篇

展开全部收起

最新评论

【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Benchmarking and Dissecting the Nvidia Hopper GPU Architecture
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：cuSZp: AnUltra-fastGPUError-boundedLossyCompressionFrameworkwithOptimized End-to-End Peformance
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。