本文是LLM系列文章,针对《LONGEMBED: EXTENDING EMBEDDING MODELS FOR LONG CONTEXT RETRIEVAL》的翻译。
摘要
嵌入模型在IR和RAG等现代NLP应用中发挥着举足轻重的作用。虽然LLM的上下文限制已超过100万个token,但嵌入模型仍被限制在不超过8k个token的狭窄上下文窗口内,不受法律合同等需要长时间输入的应用场景的限制。本文探索了现有嵌入模型的上下文窗口扩展,在不需要额外训练的情况下将限制推到32k。首先,我们在新构建的LONEMBED基准上检查了当前嵌入模型在长上下文检索中的性能。LONEMBED包括两个合成任务和四个精心选择的真实世界任务,以不同长度的文档和分散的目标信息为特征。基准测试结果突显了这些模型的巨大改进空间。基于此,综合实验表明,无论嵌入模型的原始上下文是512还是超过4k,像位置插值这样的无训练上下文窗口扩展策略都可以有效地将现有嵌入模型的上下文窗口扩展几倍。此外,对于采用绝对位置编码(APE)的模型,我们展示了进一步微调的可能性,以获得显著的性能增益,同时严格保留短输入的原始行为。对于使用旋转位置嵌入(RoPE)的模型,当使用RoPE特定的方法(如NTK和SelfExtend)时,观察到显著的增强,这表明RoPE在上下文窗口扩展方面优于APE。为了促进未来的研究,