作者:Li Wenhao, Lin Mingbao, Zhong Yunshan, Yan Shuicheng, Ji Rongrong
发表机构:厦门大学,Skywork AI
联系邮箱:wenhaoli@stu.xmu.edu.cn, linmb001@outlook.com, zhongyunshan@stu.xmu.edu.cn, shuicheng.yan@kunlun-inc.com, rrji@xmu.edu.cn
摘要
处理长文本对于大语言模型(LLMs)来说是一个挑战,因为其上下文窗口大小有限。本文提出了一种名为 UIO-LLMs 的方法,这是一种在长上下文设置下对增强记忆的 Transformer 进行无偏增量优化的方法。我们首先将该过程概念化为一个简化的编码器-解码器框架,其中权重共享的编码器和解码器分别将上下文段落封装到记忆中,并利用这些记忆预测后续段落的输出。随后,通过将我们的增强记忆的 Transformer 视为全连接的递归神经网络(RNN),我们使用截断时间反向传播(TBPTT)算法来优化训练过程,该算法结合了创新的增量优化技术。这些技术不仅降低了时间复杂度,还通过无偏优化过程解决了梯度计算中的偏差问题。UIO-LLMs 成功处理了长上下文,例如将 Llama2-7b-chat 的上下文窗口从 4