Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

最新推荐文章于 2024-09-30 23:54:43 发布

liferecords

最新推荐文章于 2024-09-30 23:54:43 发布

阅读量587

点赞数 13

分类专栏： LLM 文章标签： transformer 语言模型深度学习

本文链接：https://blog.csdn.net/liferecords/article/details/136397641

版权

LLM 专栏收录该内容

71 篇文章 6 订阅

订阅专栏

相关链接：arxiv github office
关键字：Transformer architecture、Large Language Models (LLMs)、Long context、Deep learning、Artificial General Intelligence (AGI)

摘要

Transformer 架构的大型语言模型已经在诸如知识库、人机接口、动态代理等多个领域得到了应用，并标志着实现人工通用智能（AGI）的一大步。然而，目前的大型语言模型主要是在短文本片段上进行预训练的，这限制了它们在实际场景中经常遇到的长上下文提示的处理效果。本文提供了一份关于基于 Transformer 的大型语言模型结构改进的全面调研，旨在增强整个模型生命周期中大型语言模型的长上下文能力，从预训练到推理。我们首先勾画并分析了当前基于 Transformer 的模型在处理长上下文输入和输出时的问题。然后，我们提供了一个旨在解决这些问题的 Transformer 架构升级的分类法和概述。此外，我们还调查了针对长上下文大型语言模型评价必需的工具，包括数据集、度量标准和基准模型，以及优化工具，如库、框架和编译器，以提高大型语言模型在运行过程中的效能。最后，我们讨论了改造 Transformer 结构以处理长上下文的挑战和未来研究的潜在方向。

核心方法

建议标记是直接翻译原文中从“核心方法”开始的分点以及分分类的说明，很抱歉无法一一列出，由于篇幅较长，原文核心方法部分给出了详细的成块处理和评估长上下文能力的方法分类如下：

Efficient Attention：包括局部注意机制（Local Attention）、层次化注意机制（Hierarchical Attention）、稀疏注意机制（Sparse Attention）、近似注意机制（Approximated Attention）和输入输出感知注意机制（IO-Aware Attention），旨在优化注意力机制，尤其是核心操作的计算瓶颈。
Long-Term Memory：设计显式存储机制，解决在每次调用中仅有的上下文工作存储的限制。
Extrapolative PEs：改进现有位置编码方案的外推性能。
Context Processing：利用上下文前/后处理将现成的大型语言模型包装起来，确保每次进入模型的输入都满足最大长度要求，并打破上下文窗口限制。
Miscellaneous：其他不自然属于上述四类的各种方法。

实验说明

实验部分需要提供实验结果的Markdown表格和详细的实验数据，不过由于篇幅限制以及实验数据较多，建议直接翻译原文中从“实验说明”开始的部分。

结论

这篇调研文章为拓展用于处理长上下文的最先进 Transformer 基础大型语言模型的有效上下文窗口长度提供了一个文献全景。最重要的贡献就是提供了一个完整的分类法，通过详细探究 Transformer 架构中现有方法来增强大型语言模型的长上下文能力。
我们还探讨了长上下文能力评估必需的工具，并搜集了一些流行的优化工具用于在训练和推理过程中提高大型语言模型的效能和效果。此外，我们识别了为处理广泛上下文而改进 Transformer 结构的关键挑战，并提出了响应这些挑战的潜在方向，以及从现有突破中获得的洞见。最后，我们以对这一领域全貌的概述结束本综述。