论文阅读:
Paper :RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS
检索(retrieval)和长文本上下文(long context)近期都是大模型方向的研究热点,两者都是有效提升模型性能的途径,该文就(1)检索增强和长文本哪个更加适用于下游任务?(2)两者是否能结合来共同提升性能?两个问题进行了分析和实验。
引言
Long Context (LC) 和 Retrieval 是增强大模型(LLM)性能的有效途径,其中,LC需要更强的硬件(如速度、存储大小等)的支持,而retrieval通过模型算法来实现性能提升,相对高效并且所需资源较小并且可以视为是一种稀疏化的long context方法。
Long Context在提升LLM性能上有一定的效果,然后高昂的计算资源以及上下文长度和性能之间的关系使得是否有必要持续拓展上下文长度成为一个疑问,而通过检索则可以有效降低计算成本。基于此,该文通过设计一系列实验来分析检索和LC的各自优势并探索能否结合两者的优点从而发现更加高效的方法。
贡献
- 使用 GPT(43B)和LLaMA2 (70B)在9个长文本下游任务上进行了实验分析。
- 在4K长文本条件下,检索可以有效提升模型性能,并且可以取得与16K的长文本方法相近的结果。
- 检索方法可以进一步增强16K、32K的长文本方法性能。在LLaMA2 70B 上使用32K的以及检索的性能优于GPT 3.5 16K的性能并且需要的计算成本更低。
实验设置
-
模型:Decoder-only, GPT 43B、LLaMA 7B、70B (大模型具有较好的零样本学习能力以及长文本处理能力)
-
数据集:
* QMsum: query-based 摘要数据集,包含一些学术、工业领域的会议记录,问题则是回答会议记录的主题,答案是几句话。 * Qasper:QA数据集,在给定一篇学术文章的摘要、内容等信息后,模型需要从paper信息中找到与问题相关的信息并做答。 * NarrativeQA:问答数据,包含 项目信息和电影信息。 * QuAliTY: 包含故事和文章的问答多选数据集。 * HotpotQA:基于维基百科的多文档多跳问答数据集。 * MuSiQue:多文档多跳问答数据集,需要更强的推理能力。 * MultiFieldQA-en:人工构建的测试模型长文本处理能力的问答数据集。 后三个来自LongBench。
-
数据统计信息:
-
上下文长度:GPT 43B 从4K到16K; LLaMA2 7B 从4K到32K; LLaMA2 70B从16K到32K。
-
检索器:
- Dragon
- Contriever
- OpenAI embedding (text-embedding-ada-002)
-
指令格式:System: {System}\n\n{Context}\n\nUser: {Question}\n\nAssistant: {Answer}
实验结果
主要实验结果
- Retrieval 在4K长度的模型上提升最明显。
- 长文本更有利于多跳问答任务。
- 4K+retrieval 可以优于16K 甚至32K的效果。
- 长文本会出现“lost in the middle”现象,会影响16-32K性能。
与OpenAI结果对比
- LLaMA2 70B 32K+ retrieval 效果优于GPT3.5.
- 检索可以进一步提升OpenAI结果
不同检索器和检索文档长度对比
- 使用检索器都会提升模型性能。
- 长文本并不是越长越好。
总结
检索与长文本结合可以开发更加鲁棒的LLM。