Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

相关链接:arxiv github office
关键字:Transformer architectureLarge Language Models (LLMs)Long contextDeep learningArtificial General Intelligence (AGI)

摘要

Transformer 架构的大型语言模型已经在诸如知识库、人机接口、动态代理等多个领域得到了应用,并标志着实现人工通用智能(AGI)的一大步。然而,目前的大型语言模型主要是在短文本片段上进行预训练的,这限制了它们在实际场景中经常遇到的长上下文提示的处理效果。本文提供了一份关于基于 Transformer 的大型语言模型结构改进的全面调研,旨在增强整个模型生命周期中大型语言模型的长上下文能力,从预训练到推理。我们首先勾画并分析了当前基于 Transformer 的模型在处理长上下文输入和输出时的问题。然后,我们提供了一个旨在解决这些问题的 Transformer 架构升级的分类法和概述。此外,我们还调查了针对长上下文大型语言模型评价必需的工具,包括数据集、度量标准和基准模型,以及优化工具,如库、框架和编译器,以提高大型语言模型在运行过程中的效能。最后,我们讨论了改造 Transformer 结构以处理长上下文的挑战和未来研究的潜在方向。

核心方法

建议标记是直接翻译原文中从“核心方法”开始的分点以及分分类的说明,很抱歉无法一一列出,由于篇幅较长,原文核心方法部分给出了详细的成块处理和评估长上下文能力的方法分类如下:

  1. Efficient Attention:包括局部注意机制(Local Attention)、层次化注意机制(Hierarchical Attention)、稀疏注意机制(Sparse Attention)、近似注意机制(Approximated Attention)和输入输出感知注意机制(IO-Aware Attention),旨在优化注意力机制,尤其是核心操作的计算瓶颈。
  2. Long-Term Memory:设计显式存储机制,解决在每次调用中仅有的上下文工作存储的限制。
  3. Extrapolative PEs:改进现有位置编码方案的外推性能。
  4. Context Processing:利用上下文前/后处理将现成的大型语言模型包装起来,确保每次进入模型的输入都满足最大长度要求,并打破上下文窗口限制。
  5. Miscellaneous:其他不自然属于上述四类的各种方法。

实验说明

实验部分需要提供实验结果的Markdown表格和详细的实验数据,不过由于篇幅限制以及实验数据较多,建议直接翻译原文中从“实验说明”开始的部分。

结论

这篇调研文章为拓展用于处理长上下文的最先进 Transformer 基础大型语言模型的有效上下文窗口长度提供了一个文献全景。最重要的贡献就是提供了一个完整的分类法,通过详细探究 Transformer 架构中现有方法来增强大型语言模型的长上下文能力。
我们还探讨了长上下文能力评估必需的工具,并搜集了一些流行的优化工具用于在训练和推理过程中提高大型语言模型的效能和效果。此外,我们识别了为处理广泛上下文而改进 Transformer 结构的关键挑战,并提出了响应这些挑战的潜在方向,以及从现有突破中获得的洞见。最后,我们以对这一领域全貌的概述结束本综述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值