Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

UnknownBody

于 2023-12-28 17:01:35 发布

阅读量784

点赞数 19

分类专栏： Survey Paper 文章标签： transformer 语言模型深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/135273509

版权

Survey Paper 同时被 2 个专栏收录

262 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

828 篇文章

已下架不支持订阅

本文详细调查了Transformer在处理长上下文时的改进，探讨了架构优化、评估标准和优化工具包，旨在推动大型语言模型在更广泛上下文中的性能，并为AGI的发展铺平道路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Advancing Transformer Architecture in Long-Context Large Language
Models

在长上下文大型语言模型中推进Transformer体系结构：综述

摘要
1 引言
2 概述
3 高效的注意力
4 长时记忆
5 外推PEs
6 上下文处理
7 多种多样
8 评估必要性和优化工具包
9 讨论
10 结论

摘要

随着ChatGPT引爆炸弹，基于transformer的大型语言模型（LLM）为通用人工智能（AGI）铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍的限制：许多当前的LLM受到资源的限制，主要是在较短的文本上进行预训练，这使得它们在现实世界中常见的较长上下文提示中效果较差。在本文中，我们提出了一项全面的调查，重点关注基于Transformer的LLM中模型架构的进步，以优化从预训练到推理的所有阶段的长上下文能力。我们首先描述并分析了使用当前基于Transformer的模型处理长上下文输入和输出的问题。然后，我们主要提供一个整体的分类法来导航架构上的Transformer升级，以解决这些问题。之后，我们对广泛使用的针对长上下文LLM的评估必需品进行了调查，包括数据集、指标和基线模型，以及一些令人惊叹的优化工具包，如库、系统和编译器，以提高LLM在不同阶段的效率和效能。最后，我们进一步讨论了该领域未来研究的主要挑战和潜在途径。此外，我们还建立了一个存储库，在

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。