LONGEMBED: EXTENDING EMBEDDING MODELS FOR LONG CONTEXT RETRIEVAL

本文研究了嵌入模型在长上下文检索中的局限,并提出LONGEMBED基准,评估了扩展上下文窗口的策略。通过无训练方法,如位置插值,将模型输入长度增加数倍,特别指出RoPE在扩展性能上优于APE。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LONGEMBED: EXTENDING EMBEDDING MODELS FOR LONG CONTEXT RETRIEVAL》的翻译。

LONGEMBED:扩展用于长上下文检索的嵌入模型

摘要

嵌入模型在IR和RAG等现代NLP应用中发挥着举足轻重的作用。虽然LLM的上下文限制已超过100万个token,但嵌入模型仍被限制在不超过8k个token的狭窄上下文窗口内,不受法律合同等需要长时间输入的应用场景的限制。本文探索了现有嵌入模型的上下文窗口扩展,在不需要额外训练的情况下将限制推到32k。首先,我们在新构建的LONEMBED基准上检查了当前嵌入模型在长上下文检索中的性能。LONEMBED包括两个合成任务和四个精心选择的真实世界任务,以不同长度的文档和分散的目标信息为特征。基准测试结果突显了这些模型的巨大改进空间。基于此,综合实验表明,无论嵌入模型的原始上下文是512还是超过4k,像位置插值这样的无训练上下文窗口扩展策略都可以有效地将现有嵌入模型的上下文窗口扩展几倍。此外,对于采用绝对位置编码(APE)的模型,我们展示了进一步微调的可能性,以获得显著的性能增益,同时严格保留短输入的原始行为。对于使用旋转位置嵌入(RoPE)的模型,当使用RoPE特定的方法(如NTK和SelfExtend)时,观察到显著的增强,这表明RoPE在上下文窗口扩展方面优于APE。为了促进未来的研究,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值