魔改Transformer！9种提速又提效的模型优化方案

Python程序员罗宾

于 2024-07-23 11:50:48 发布

阅读量1k

点赞数 44

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/aolan123/article/details/140631941

版权

Transformer目前已经成为人工智能领域的主流模型，应用非常广泛。然而Transformer中注意力机制计算代价较高，随着序列长度的增加，这个计算量还会持续上升。

为了解决这个问题，业内出现了许多Transformer的魔改工作，以优化Transformer的运行效率。我这次就给大家分享9篇对Transformer模型进行效率优化的改进文章，以方便大家更高效地使用模型，寻找论文创新点。

文章主要涉及4个方向：稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention，原文及源码都已整理

一、稀疏注意力机制

1.1 Longformer: The Long-Document Transformer

长文档Transformer

「方法简述：」Transformer-based models处理长序列时存在困难，因为它们的自注意力操作与序列长度呈二次方关系。Longformer通过引入一个与序列长度呈线性关系的注意力机制解决了这个问题，使其能够轻松处理数千个标记或更长的文档。 Longformer在字符级语言建模方面表现优秀，并在各种下游任务上取得了最先进的结果。此外，Longformer还支持长文档生成序列到序列任务，并在arXiv摘要生成数据集上展示了其有效性。

1.2 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

增强局部性并打破Transformer在时间序列预测中的内存瓶颈

「方法简述：」时间序列预测是许多领域中的重要问题，包括太阳能发电厂能源输出、电力消耗和交通拥堵情况的预测。本文提出了使用Transformer来解决这种预测问题的方法。虽然初步研究表明其性能令人印象深刻，但作者发现它有两个主要缺点：局部性不敏感和内存瓶颈。为了解决这两个问题，作者提出了卷积自注意力和LogSparse Transformer，它们能够更好地处理局部上下文并降低内存成本。实验表明，这些方法在时间序列预测方面具有优势。

1.3 Adaptive Attention Span in Transformers

Transformers中的自适应注意力跨度

「方法简述：」论文提出了一种新的自注意力机制，可以学习其最优的注意力跨度。这使得我们可以显著扩展Transformer中使用的最大上下文大小，同时保持对内存占用和计算时间的掌控。作者在字符级语言建模任务上展示了该方法的有效性，在该任务中，作者使用最大8k个字符的上下文实现了在text8和enwiki8上最先进的性能。

二、Transformer处理长文本

2.1 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

超越固定长度上下文的注意语言模型

「方法简述：」Transformers在语言建模中受到固定长度上下文的限制，作者提出了一种新的神经网络架构Transformer-XL，可以学习超过固定长度的依赖关系。它由一个段级别循环机制和一个新的位置编码方案组成，能够捕捉更长的依赖关系并解决上下文碎片化问题。该方法不仅在短序列和长序列上都取得了更好的性能，而且在评估期间比普通的Transformers快1,800+倍。

三、Transformer运行提效

3.1 REFORMER: THE EFFICIENT TRANSFORMER

高效的Transformer

「方法简述：」大型Transformer模型训练成本高，尤其是在长序列上。论文提出了两种技术来提高效率：使用局部敏感哈希替换点积注意力，将复杂度从O(L^2)降低到O(L log L)；使用可逆残差层代替标准残差，允许只存储一次激活。由此产生的Reformer模型在长序列上表现相当，但更内存高效和更快。

3.2 RETHINKING ATTENTION WITH PERFORMERS

重新思考注意力机制：Performer模型

「方法简述：」论文介绍了Performers，一种Transformer架构，可以以可证明的准确性估计常规（softmax）全秩注意力Transformers，但仅使用线性空间和时间复杂度。为了近似softmax注意力核，Performers使用了一种新颖的快速注意通过正交随机特征方法（FAVOR+），并可以用于高效地建模可核化的注意力机制。

3.3 Linformer: Self-Attention with Linear Complexity

具有线性复杂度的自注意力机制

「方法简述：」大型Transformer模型在自然语言处理应用中表现出色，但长序列的训练和部署成本很高。本文提出一种新自注意力机制，将复杂度从O(n^2)降低到O(n)，同时保持性能不变。由此产生的Linformer比标准的Transformer更节省时间和内存。

四、卷积Attention

4.1 Conformer: Convolution-augmented Transformer for Speech Recognition

用于语音识别的卷积增强Transformer

「方法简述：」Conformer是一种结合了卷积神经网络和Transformer的模型，用于语音识别。它能够同时捕捉音频序列的局部和全局依赖关系，并实现了最先进的准确率。在LibriSpeech基准测试中，Conformer在不使用语言模型的情况下实现了2.1％/4.3％的WER，在使用外部语言模型的情况下实现了1.9％/3.9％的WER。此外，它还具有竞争力的小模型，只有10M参数。

4.2 LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

具有长短范围注意力的轻量级Transformer

「方法简述：」本文提出了一种高效的移动自然语言处理架构Lite Transformer，它使用长短范围注意力（LSRA）来提高性能。LSRA将一组头专门用于局部上下文建模（通过卷积），另一组头则专门用于长距离关系建模（通过注意力）。在三个语言任务上，Lite Transformer始终优于普通的Transformer。在受限资源下，Lite Transformer比Transformer在WMT’14英法翻译任务上高出1.2/1.7 BLEU分数。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Python程序员罗宾

关注

44
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
魔改Transformer！9种提速又提效的模型优化方案

Transformer目前已经成为人工智能领域的主流模型，应用非常广泛。然而Transformer中注意力机制计算代价较高，随着序列长度的增加，这个计算量还会持续上升。为了解决这个问题，业内出现了许多Transformer的魔改工作，以优化Transformer的运行效率。我这次就给大家。文章主要涉及4个方向：稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention，原文及源码都已整理一、稀疏注意力机制长文档Transformer。
复制链接

扫一扫