在人工智能领域,大型语言模型(LLM)的发展一直备受关注。近日,普林斯顿大学陈丹琦团队发布了一项突破性研究成果,提出了名为CEPE(Context Expansion with Parallel Encoding,并行编码上下文扩展)的新方法,该方法能够以极低的成本显著扩展LLM的上下文窗口。这一创新有望为未来的AI模型带来更强大、更高效的长文本处理能力。
CEPE:革命性的上下文扩展技术
CEPE技术的核心在于其独特的架构设计。研究团队通过在现有的预训练模型中添加两个关键组件,实现了上下文窗口的大幅扩展:
- 小型编码器:用于对长上下文进行块编码
- 交叉注意力模块:插入到解码器的每一层,用于关注编码器表示
这种设计使得CEPE能够在仅使用8k大小的token文档进行训练的情况下,将Llama-2的上下文窗口扩展至128k。更令人惊叹的是,在这个过程中,CEPE仅需原来1/6的内存就能获得10倍的吞吐量。
CEPE的三大优势
陈丹琦团队指出,CEPE具有以下三个主要优势:
-
长度可泛化:不受位置编码的约束,上下文分段编码,每段都有自己的位置编码。
-
高效率:使用小型编码器和并行编码处理上下文,降低计算成本。由于交叉注意力仅关注编码器最后一层的表示,CEPE所需内存大大减少。
-
低训练成本:CEPE只调整编码器和交叉注意力,保持大型解码器模型冻结,显著降低了训练成本。