本文是LLM系列文章,针对《Advancing Transformer Architecture in Long-Context Large Language
Models
在长上下文大型语言模型中推进Transformer体系结构:综述
摘要
随着ChatGPT引爆炸弹,基于transformer的大型语言模型(LLM)为通用人工智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍的限制:许多当前的LLM受到资源的限制,主要是在较短的文本上进行预训练,这使得它们在现实世界中常见的较长上下文提示中效果较差。在本文中,我们提出了一项全面的调查,重点关注基于Transformer的LLM中模型架构的进步,以优化从预训练到推理的所有阶段的长上下文能力。我们首先描述并分析了使用当前基于Transformer的模型处理长上下文输入和输出的问题。然后,我们主要提供一个整体的分类法来导航架构上的Transformer升级,以解决这些问题。之后,我们对广泛使用的针对长上下文LLM的评估必需品进行了调查,包括数据集、指标和基线模型,以及一些令人惊叹的优化工具包,如库、系统和编译器,以提高LLM在不同阶段的效率和效能。最后,我们进一步讨论了该领域未来研究的主要挑战和潜在途径。此外,我们还建立了一个存储库,在