田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口

e48281eb6dd7260adf4fbe0aafd31eab.gif

©PaperWeekly 原创 · 作者 | 陈首元、王胜铭等

单位 | Meta Platform Inc

775af8d38d01ff50ac7d151655d85a36.png

论文标题:

Extending Context Window of Large Language Models via Positional Interpolation

论文作者:

陈首元, 王胜铭, 陈梁坚, 田渊栋

作者单位:

Meta Platform Inc

论文链接:

https://arxiv.org/abs/2306.15595

0f5f8eb9cbe556ed2d154f5a2b94de6f.png

方法动机

大型语言模型(LLM)通常具有预定义的上下文窗口大小。例如,LLaMA 的输入必须少于 2048 个 Token。在进行长时间对话、总结长文档或执行长期规划等应用中,经常超过这个预设的上下文窗口限制。对于这些应用,拥有更长上下文窗口的 LLM 更受青睐。然而,从头开始训练具有较长上下文窗口的 LLM 需要巨大的投入。这自然引出一个问题:我们能否扩展现有预训练 LLM 的上下文窗口?

一种直接的方法是对现有预训练 Transformer 进行微调,使其具有更长的上下文窗口。然而,根据经验,我们发现通过这种方式训练的模型对于较长的上下文窗口适应速度很慢。在训练了 10000 个批次以上后,有效上下文窗口的增加非常小,这表明这种方法不适用于显著延长上下文窗口。

尽管一些技术(如 ALiBi 和 LeX)可以实现 Transformer 的长度外推,即在短上下文窗口上进行训练,然后在更长的上下文窗口上进行推理,但许多现有的预训练 LLM,包括 LLaMA(Touvron 等人,2023),使用具有较弱外推性质的位置编码(例如 RoPE)。因此,这些技术在扩展这些 LLM 的上下文窗口大小方面的适用性仍然有限。

在这项工作中ÿ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值