LLM 开放领域QA+检索增强 论文 When Not to Trust Language Models: Investigating Effectiveness of Parametric and

研究发现大型语言模型在记忆长尾实体的事实知识上表现不佳,检索增强有助于提升性能,但可能影响流行实体问题的处理。提出自适应检索方法,有效结合参数与非参数记忆,提高性能且降低成本。
摘要由CSDN通过智能技术生成

摘要 Abstract

尽管大型语言模型(LMs)在各种任务上的表现令人印象深刻,但它们仍然在需要丰富世界知识的任务上挣扎,这意味着在它们的参数中编码丰富的世界知识的困难。本文旨在通过在两个开放域以实体为中心的QA数据集上进行大规模的知识探索实验,了解LMs在记忆事实知识方面的优势和局限性:POPQA是我们的新数据集,包含14k个关于长尾实体的问题,EntityQuestions是一个广泛使用的开放域QA数据集。我们发现LMs在不太流行的事实知识中挣扎,检索增强在这些情况下有显著的帮助。另一方面,尺度化主要提高了对通俗知识的记忆,而对长尾中事实知识的记忆没有明显的提高。基于这些发现,我们设计了一种新的检索增强方法,通过在必要时仅检索非参数记忆来提高性能并降低推理成本

结论

导言 Introduction

大型语言模型(LMs);Brown et al . 2020;rafael et al . 2020)已被证明在各种NLP任务上具有竞争力,包括需要细粒度记忆事实知识的知识密集型任务(Chowdhery et al ., 2022;Yu et al, 2022)。与此同时,LMs也被证明对不太频繁的实体有有限的记忆(Kandpal等人,2022),容易产生幻觉(Shuster等人,2021),并遭受时间退化(Kasai等人,2022;Jang et al ., 2022)。结合非参数知识(即检索的文本块)在很大程度上有助于解决依赖于LMs的参数知识(存储的知识)而产生的问题(Izacard等人,2022b),但尚不清楚它是严格优于参数知识还是补充参数知识。了解什么时候我们不应该信任LMs的输出对于在实际应用中安全地部署它们也至关重要(Kadavath et al, 2022)。

这项工作对LMs在事实知识记忆方面进行了大规模的知识探索,以了解我们何时应该和不应该依赖LMs的参数知识,以及缩放和非参数记忆(例如检索增强LMs)如何提供帮助。具体而言,我们的目标是解决以下研究问题:

(RQ1) LMs记忆了多少事实知识,哪些因素影响了记忆?(Section 4)

(RQ2)非参数记忆能在多大程度上缓解LMs参数记忆的不足?(第5节)

(RQ3)我们能否建立一个系统来自适应地结合非参数和参数记忆?(6节)

        图1:问题中的主题实体受欢迎程度与开放域QA中GPT-3性能之间的关系,有和没有检索段落。自适应检索仅在必要时根据启发式确定的阈值(红线)进行检索(橙色条)。

我们假设在网上经常讨论的事实性知识很容易记忆而较少讨论的知识可能无法很好地捕获,因此它们需要检索外部非参数记忆。我们以零或几次提示的方式评估了开放域问答(QA)任务上不同尺度的三个家族(即GPTNeo, OPT和GPT-3)的10个大型LMs。我们构建了一个新的数据集POPQA,由14k个问题组成,以覆盖长尾中的事实信息,这些信息可能在流行的QA数据集中被遗漏(Kwiatkowski等人,2019)。我们使用维基百科页面浏览量作为受欢迎程度的衡量标准,并将维基数据中具有不同受欢迎程度的知识三元组转换为基于原始实体和关系类型的自然语言问题。我们还使用了EntityQuestions (Sciavolino等人,2021),这是一个长尾分布的开放域QA数据集。

在这两个数据集上,LMs的记忆(RQ1)往往局限于流行的事实性知识,甚至GPT-3 davincii -003也无法回答大部分长尾问题。此外,在这类问题上,按比例放大模型并没有显著提高性能(例如,对于POPQA中最不受欢迎的4000个问题,GPT-j 6B的准确率为16%,而GPT-3 davincii -003的准确率为19%)。这也表明,我们可以仅根据输入问题中呈现的信息来预测LMs是否记住了某些知识。

接下来,我们将研究使用检索到的证据来增强LMs的半参数方法是否可以缓解在关于不太受欢迎的实体(RQ2)的问题上的低性能。非参数存储器在很大程度上提高了跨模型长尾分布的性能。具体来说,我们发现检索增强的lm在主题实体不受欢迎时特别具有竞争力:神经密集检索器(Izacard等人,2022a)增强的GPT-neo 2.7B在4,000个最不受欢迎的问题上优于GPT-3 davinciic -003。令人惊讶的是,我们还发现,检索增强可能会损害大型lm在关于流行实体的问题上的性能,因为检索的上下文可能具有误导性。

因此,我们设计了一种简单而有效的检索增强LM方法,即自适应检索,该方法基于流行度自适应地结合参数和非参数记忆(RQ3)。该方法进一步将POPQA的性能提高了10%,同时显著降低了推理成本,特别是在较大的情况下LMs(例如,将GPT-3 API成本降低一半),表明未来研究更高效、更强大的检索增强LMs的潜力。

相关工作 Related Work

参数和非参数知识。

Petroni等人(2019)证明,BERT (Devlin等人,2019)等大型预训练的LMs在其参数(参数知识)中记住了大量的世界知识,Roberts等人(2020)表明,没有任何参考文档(闭卷QA)的微调T5可以在开放域QA上取得具有竞争力的性能。最近更强大的LMs (Brown et al, 2020;Chowdhery等人,2022)进一步提高了在各种知识密集型任务上的表现,利用他们强大的参数记忆(Kandpal等人,2022;Yu et al, 2022)。然而,仅仅依靠它们的参数来编码丰富的世界知识需要大量的参数,这些知识可能很快就会过时(Kasai等人,2022;Jang et al ., 2022)。最近的研究表明,使用非参数记忆(即检索的文本块)增强LMs使更小的模型能够匹配更大模型的性能(Izacard等人,2022b;Khandelwal等,2020;Min et al ., 2022),尽管Chen et al .(2022)和Longpre et al .(2021)表明即使这些模型也可以忽略非参数知识而依赖参数知识。

理解记忆。

先前的一些工作建立了预训练语料库中字符串频率与记忆之间的正相关关系(Carlini et al ., 2022;Razeghi et al ., 2022)。

与我们的工作同时,Kandpal等人(2022)表明,在流行的开放领域QA基准(如Natural Questions)上,预训练语料库中问题和答案实体的共现与模型的QA准确性呈正相关(Kwiatkowski等人,2019)。相反,这项工作试图仅使用输入问题中可用的变量来预测记忆,并使用流行度来获得一个实体在网络上可能被讨论的频率的代理。重要的是,通过构建一个新的数据集,我们可以在广泛的流行范围内进行细粒度的控制实验,允许对使用现有开放QA数据集的先前分析中可能错过的假设进行调查。我们进一步分析的有效性和局限性检索增强LMs,引入自适应检索。先前的工作研究了在kNN LM中决定何时在令牌级别使用非参数存储器的有效性(He et al, 2021;Drozdov et al, 2022)。这项工作是第一个研究决定是否检索每个查询的有效性的工作,并在检索增强的LM提示中显示它们的有效性。

图2:POPQA是通过从Wikidata中采样知识三元组并将其转换为自然语言问题创建的,然后进行流行度计算。

模型

实验

评论 Discussion and Conclusions

本研究通过大规模的知识探究来检验依赖LMs参数记忆事实性知识的有效性和局限性,了解影响事实性知识记忆的因素。我们的研究结果表明,记忆与实体受欢迎程度有很强的相关性,并且在长尾分布上扩大模型可能只提供边际改进。我们还证明了非参数记忆可以极大地帮助LMs处理这些长尾分布,但也可能在关于已知实体的问题上误导LMs,因为强大的LMs已经在其参数中记住了它们。基于这些发现,我们设计了简单而有效的自适应检索,它只在必要时检索,使用基于实体流行度和关系类型的启发式。

实验结果表明,该方法不仅比LMs或以前的检索增强LMs更强大,而且效率更高。

局限性

这项工作主要关注以实体为中心的事实知识,并表明LMs的记忆受到实体的受欢迎程度和问题中被问到的实体的方面的严重影响。重要的是要强调,对于运行控制实验,我们依赖于两个合成数据集,并且我们的结果适用于自然发生的事实知识的程度尚未牢固建立。虽然我们可以对本文所研究的各种知识的缩放、检索、流行度、关系类型和性能之间的关系相当有信心,但自适应检索的有效性将取决于问答管道的许多细节。此外,我们的工作依赖于流行度的定义,该定义与时间有关,可能无法完美反映实体在网络上讨论的频率。维基百科页面浏览量是我们观察结果的一个可能的流行度定义,我们邀请其他人在未来的工作中改进它。进一步的研究可以扩展这个简单的方法,也许借鉴Kadavath等人(2022)的见解来提高自适应检索的有效性。

同样的发现是否适用于其他类型的世界知识,如常识,这是一个悬而未决的问题。我们推测,主题(实体)和方面(关系类型)的概念可以稍加修改后应用,未来的工作可以按照我们的方案量化记忆。

道德的考虑

最近的工作(Huang et al ., 2022)表明,LMs记忆网络上可用的个人信息,这具有重大的安全问题。我们的评估侧重于一般实体中心知识的记忆,但我们的发现可以适用于这些领域。我们的研究结果表明,LMs对少数群体的了解可能不太可靠。Parrish等人(2022)发现,在不确定的情况下,模型往往依赖于刻板印象来回答问题,因此我们的研究结果表明,对于少数群体,lm可能不成比例地依赖于刻板印象。未来的工作可以研究检索增强是否会减少这些情况下的偏差。

  • 14
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值