【论文阅读】何时检索?《When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively》

文章介绍了一种新的方法ADAPT-LLM,训练LLMs在需要时使用信息检索,以提高问答任务的性能。通过在PopQA数据集上的实验,ADAPT-LLM能动态决定何时检索信息,显示出优于固定策略的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

又是一篇关于何时检索的文章,不同于《Self-DC:何时检索,何时生成?》,这篇文章通过输出一个特殊token,来决定是否需要检索。

这篇文章的标题是 “When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively”,作者 Tiziano Labruna, Jon Ander Campos 和 Gorka Azkune。
论文链接:https://arxiv.org/html/2404.19705v2
在这里插入图片描述

摘要 (Abstract)

在本文中,我们展示了大型语言模型(LLMs)如何有效地学习使用现成的信息检索(IR)系统,特别是在回答给定问题时需要额外上下文的时候。鉴于IR系统的性能,问答的最优策略并不总是涉及外部信息检索;相反,它通常涉及利用LLM自身的参数记忆。先前的研究在PopQA数据集上已经确定了这一现象,其中最流行的问题通过使用LLM的参数记忆得到了有效的回答,而不太流行的问题则需要使用IR系统。基于此,我们为LLM提出了一种定制的训练方法,利用现有的开放域问答数据集。在这里,LLM被训练以生成一个特殊token⟨RET⟩,当它们不知道问题的答案时。我们在PopQA数据集上对自适应检索LLM(ADAPT-LLM)进行评估,展示了其在以下三种配置下的性能提升:(i) 对所有问题检索信息,(ii) 始终使用LLM的参数记忆,以及 (iii) 使用流行度阈值来决定何时使用检索器。通过我们的分析,我们证明了ADAPT-LLM能够在确定不知道如何回答问题时生成 ⟨RET⟩ token,表明需要IR,而在它选择仅依赖其参数化记忆时,它的准确率显著较高。

解决的主要问题

文章解决的主要问题是如何在问答任务中有效地利用信息检索系统。传统的检索方法(如TF-IDF或BM-25)只能检索具有关键词重叠的文档,并且存在词汇差距问题。此外,信息检索系统的性能对于检索增强型模型至关重要,因为它将限制模型性能的上限。文章指出,对于高流行度的问题,LLM可以仅依赖其参数记忆来回答问题,而对于低流行度的问题,则需要使用IR系统。

贡献

文章的主要贡献包括:

  1. 提出了一种训练LLM的方法,使其能够在需要时生成 ⟨RET⟩ 标记,以指示需要额外上下文。
  2. 通过实验验证了ADAPT-LLM在PopQA数据集上的性能,证明了其在动态决定何时检索信息方面的优势。
  3. 展示了ADAPT-LLM在不使用任何流行度分数或类似指标的情况下,与依赖流行度分数来决定何时使用IR系统的方法相比,具有可比的性能。
  4. 指出了ADAPT-LLM性能的主要瓶颈在于IR系统,并提出了未来研究的方向,包括探索提高IR系统性能的方法。

1.引言

问答(QA)任务仍然是自然语言理解(NLU)研究的焦点。有许多不同的数据集作为评估QA模型的基准,例如自然问题(NQ)[17]、SQuAD [24]或QuAC [7],仅举几例。如今,大型语言模型(LLMs)在这些基准测试上持续超越传统方法,展现出卓越的性能。通常,有两类主要的方法利用LLM进行问答:(i) 闭卷问答:这种方法涉及如指令调整[31]或少样本提示[6]等策略来提升性能。在这里,LLM仅依赖其参数记忆来回答问题。然而,这些参数记忆有其固有的局限性,因为它们完全基于训练语料库,比如它们可能对训练过程之后发生的事件过时。(ii) 开

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bylander

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值