本文是LLM系列文章,针对《CAMELOT: Towards Large Language Models with Training-Free Consolidated Associative Memory》的翻译。
摘要
由于高内存和运行时成本,大型语言模型(LLM)难以处理长输入序列。内存增强模型已成为解决这一问题的一个很有前途的解决方案,但当前的方法受到内存容量有限的阻碍,需要昂贵的重新训练才能与新的LLM集成。在这项工作中,我们介绍了一种联想记忆模块,它可以在不重新训练的情况下耦合到任何预训练(冻结)的基于注意力的LLM,使其能够处理任意长的输入序列。与以前的方法不同,我们的关联内存模块将单个token的表示合并到一个非参数分布模型中,通过适当平衡传入数据的新颖性和近期性来动态管理。通过从这个整合的联想记忆中检索信息,与在标准基准上评估的其他基线相比,基本LLM可以显著减少长上下文建模中的困惑(在Arxiv上高达29.7%)。这种架构,我们称之为CAMELoT(Consolidated Associationve Memory Enhanced Long Transformer),即使在128个token的微小上下文窗口中也表现出了卓越的性能,并且还通过一组更大的演示实现了改进的上下文内学习。