检索还是长文本？RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS --- ICLR 2024-CSDN博客

本文链接：https://blog.csdn.net/sev7777777/article/details/136295373

本文通过对比实验分析了检索和长文本上下文在增强大模型性能上的效果，发现检索在4K长度模型中有显著提升，且与长文本结合可开发出更鲁棒的LLMs，同时指出长文本并非越长越好，而是需要平衡计算成本和性能.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读：

Paper ：RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS

检索(retrieval)和长文本上下文(long context)近期都是大模型方向的研究热点，两者都是有效提升模型性能的途径，该文就（1）检索增强和长文本哪个更加适用于下游任务？（2）两者是否能结合来共同提升性能？两个问题进行了分析和实验。

引言

Long Context (LC) 和 Retrieval 是增强大模型（LLM）性能的有效途径，其中，LC需要更强的硬件（如速度、存储大小等）的支持，而retrieval通过模型算法来实现性能提升，相对高效并且所需资源较小并且可以视为是一种稀疏化的long context方法。

Long Context在提升LLM性能上有一定的效果，然后高昂的计算资源以及上下文长度和性能之间的关系使得是否有必要持续拓展上下文长度成为一个疑问，而通过检索则可以有效降低计算成本。基于此，该文通过设计一系列实验来分析检索和LC的各自优势并探索能否结合两者的优点从而发现更加高效的方法。

贡献

使用 GPT（43B）和LLaMA2 （70B)在9个长文本下游任务上进行了实验分析。
在4K长文本条件下，检索可以有效提升模型性能，并且可以取得与16K的长文本方法相近的结果。
检索方法可以进一步增强16K、32K的长文本方法性能。在LLaMA2 70B 上使用32K的以及检索的性能优于GPT 3.5 16K的性能并且需要的计算成本更低。

实验设置

模型：Decoder-only， GPT 43B、LLaMA 7B、70B （大模型具有较好的零样本学习能力以及长文本处理能力）

数据集：

  * QMsum： query-based 摘要数据集，包含一些学术、工业领域的会议记录，问题则是回答会议记录的主题，答案是几句话。
  * Qasper：QA数据集，在给定一篇学术文章的摘要、内容等信息后，模型需要从paper信息中找到与问题相关的信息并做答。
  * NarrativeQA：问答数据，包含 项目信息和电影信息。
  * QuAliTY： 包含故事和文章的问答多选数据集。
  * HotpotQA：基于维基百科的多文档多跳问答数据集。
  * MuSiQue：多文档多跳问答数据集，需要更强的推理能力。
  * MultiFieldQA-en：人工构建的测试模型长文本处理能力的问答数据集。
  后三个来自LongBench。