论文翻译 | Can GPT Redefine Medical Understanding?Evaluating GPT on Biomedical Machine Reading Comprehe

最新推荐文章于 2024-09-13 22:24:12 发布

龙的爹2333

最新推荐文章于 2024-09-13 22:24:12 发布

阅读量1.1k

点赞数 15

分类专栏：论文翻译文章标签： gpt nlp 自然语言处理 AIGC prompt

本文链接：https://blog.csdn.net/m0_49651195/article/details/141727326

版权

论文翻译专栏收录该内容

17 篇文章 0 订阅

订阅专栏

摘要

大型语言模型(llm)在不同领域的任务中表现出了显著的性能。然而，它们在闭卷生物医学机器阅读理解(MRC)中的表现尚未得到深入的评价。在这项工作中，我们在四个闭卷生物医学MRC基准上评估GPT。我们尝试了不同的传统提示技术，并介绍了我们自己的新颖提示方法。为了解决llm固有的一些检索问题，我们提出了一种名为隐式检索增强生成(RAG)的提示策略，该策略减轻了在传统的RAG设置中使用矢量数据库检索重要块的需要。此外，我们报告了我们的方法对自然语言生成输出的定性评估。结果表明，我们的新提示技术在四个数据集中的两个数据集上获得了最好的性能，在其余数据集上排名第二。实验表明，像GPT这样的现代法学硕士即使在零射击设置中也可以优于监督模型，从而在两个基准测试中获得新的最先进(SoTA)结果。

1 引言

        机器阅读理解(MRC)被定义为一项任务，其中系统试图根据给定的上下文回答问题。上下文可以是任何内容，从几个段落到一个文档列表。尽管已经有很多关于MRC的研究，但在处理MRC任务时仍然面临一些挑战(Sugawara等人，2022)，例如在推理和领域适应时无法处理远程依赖关系。最近在大型语言建模方面的改进减轻了前面提到的许多问题。
        生物医学领域的MRC (Hermann et al .， 2015;Baradaran et al, 2022)一直是一个长期的研究领域。Sun等人(2022)提出了一种新的标记策略，用于MRC框架中生物医学实体和关系的联合提取。解决生物医学MRC任务面临各种挑战，包括大量复杂的领域内词汇，对全局知识的依赖等。由于这些挑战，常规方法在一般领域的性能与生物医学领域的性能之间存在很大差距。尽管传统的机器学习模型确实显示出一些改进，但它们从未接近人类的基线或黄金标准。与这种先入为主的观念相反，现代法学硕士在许多生物医学任务上表现出色(Nori et al, 2023;Yang等，2023;Cheng et al .， 2023)。
        一个开放的书籍设置要求法学硕士不仅要依赖于给定的上下文，而且要使用嵌入在其参数中的全局知识来回答查询。另一方面，在闭卷设置中，llm仅依赖给定的上下文来回答查询。open-book对应的数据集有Zhang et al (2018);Pal et al(2022)。同样，Berant等人(2014b);Pappas等人(2018);Zhu et al .(2020)采用闭卷数据集。最近的法学硕士在广泛的自然语言处理(NLP)任务中取得了前所未有的表现(Chang等人，2023)。虽然他们的表现已经在开卷环境下的多种MRC基准上进行了评估，但他们在闭卷环境下的表现还没有得到充分的研究。在这项工作中，我们通过在生物医学领域的标准闭本MRC基准上评估GPT (OpenAI, 2023)来填补这一缺失的空白。主要贡献有:

我们在四个闭卷生物医学MRC基准上评估了不同的GPT提示技术，并报告了新的SoTA结果。
我们提出了一种新颖的提示方法——隐式RAG。在这种方法中，首先要求LLM从上下文中检索可能与查询相关的段落或文本摘录，然后回答给定的查询。这项技术表明，与传统的RAG不同，我们不再需要向量数据库来存储整个语料库的嵌入。它进一步强调，LLM有能力一次性完成检索任务。实验结果显示，这种技术在四个讨论的数据集中有两个达到了最佳结果，在其余的数据集中排名第二。
虽然机器评估是一种很好的性能衡量标准，但在评估人工生成的文本时却存在不足(Schluter, 2017)，在人工生成的文本中，实际的人类偏好明显优于人工生成的文本。因此，我们报告了人类专家对我们提出的方法隐式RAG的输出的定性偏好指标。我们发现，大多数情况下，人类都同意生成的输出。

2 相关工作

        MRC评估系统的理解能力，然后根据段落或上下文中的自然语言推理回答问题。多年来，这项任务的许多变化已经被设计出来，以解决和评估MRC系统的各个方面，即封闭型(Hermann等人，2015;Yagcioglu等，2018;Pappas等人，2018,2020)，多项选择(Richardson等人，2013;Lai et al .， 2017;Berant et al, 2014a)，提取物(Yang et al, 2015;Trischler et al, 2016;Zhu等人，2020)和生成式QA (Nguyen等人，2016;Kocisk等人'，2018)。在这项研究中，我们努力评估上述三种形式的MRC在生物医学领域，即封闭式，提取和多项选择使用GPT。
        为了从像GPT这样的LLM中引出答案，需要以最佳方式用自然语言提示它以检索预期答案。为此，在寻找最佳的llm激励方法方面取得了巨大的进展。从思维链(CoT)推理(Wei et al, 2022)提示策略中可以看到最大的性能提升，该策略要求法学硕士解释它是如何得出答案的。最近，类比推理(AR) (Yasunaga等人，2023a)被提出，它比CoT和其他提示技术实现了显著更好的性能。AR的工作原理是要求法学硕士通过给出类比来推理问题，而类比反过来又迫使模型利用编码在其中的全局知识。虽然像CoT和AR这样的提示方法通过利用嵌入其中的模型的全局知识来提高LLM的性能，但开发新技术的情况有所增加，特别是在需要搜索上下文以回答所问查询的情况下。上下文可以是一个大文档，也可以是多个短/长文档的组合。在这种情况下，只识别底层任务所需的上下文的相关块并关注它们是非常重要的。这些新兴方法属于检索增强生成(RAG) (Lewis et al .， 2020)，已被证明可以通过从语料库中检索上下文相关的信息来提高llm的性能。
        RAG背后的基本方法是在矢量数据库中使用、嵌入和存储上下文。然后可以根据这些嵌入与查询的语义相似性来检索它们。

所有上述提示方法都有助于更好地为LLMs接口和上下文化输入。虽然这些方法在多个不同领域的大型基准测试中已经证明了其有效性，但是它们在闭卷生物医学MRC中的帮助程度尚未得到充分研究。Mahbub等人（2022年）提出了一种基于对抗性学习的领域适应框架，用于生物医学MRC任务，以解决通用和生物医学领域数据集之间的边缘分布差异。Nori等人（2023年）在医学能力考试和基准数据集上评估了GPT。尽管他们的工作谈到了生物医学MRC，但它只集中在开卷基准上。同样，Singhal等人（2023年）在医学能力考试上评估了Med-PaLM 2，因此专注于开卷生物医学MRC。

3 数据集

我们选择从生物医学和医疗保健领域探索和分析GPT性能的四个数据集是ProcessBank (Berant等人，2014b)、BioMRC (Pappas等人，2020)、MASH-QA (Zhu等人，2020)和CliCR (Šuster和Daelemans, 2018)。选择这四个数据集有多种原因。首先，我们希望专注于尚未被现代法学硕士(如GPT)评估的数据集。接下来，我们要挑选统计和性质不同的数据集。最后，根据我们的理解，这6个数据集涵盖了生物医学领域关于闭卷MRC的大部分研究。
数据库包含对生物过程的描述，并附有多项选择题。BioMRC是BioREAD的改进版本(Pappas et al .， 2018)，是一个大规模的封闭型数据集。它包含生物医学文章的摘要和标题，任何MRC系统的任务都是使用相应的摘要作为上下文来预测标题中缺失的实体。在BioMRC中，摘要中提到的所有生物医学实体都被视为候选答案，因此需要从中选择一个选项。
MASH-QA与消费者健康领域相关，其中答案可以由来自长上下文的多个跨度的句子组成。考生的答案包括给定语境中的每一个句子。CliCR也是一个封闭型数据集。它包含来自临床病例报告的完形查询。

与BioMRC不同的是，CliCR并没有一个候选答案列表，其中一个是正确答案。相反，CliCR包含一个基本真理答案集，它由基本真理答案的不同词汇和语义变体组成，因此它们都是正确的。我们只使用这些数据集的测试集来进行零样本设置下的所有提示实验。我们使用BioMRC LITE版本的BioMRC。四个数据集的统计结果如表1所示。

表1:语料库级统计

4 提示技巧

虽然对所有先前提示策略进行详尽的研究可能是一个更好的实验设置，但由于在GPT上运行大规模实验的成本过高，我们只选择在一般领域表现良好的技术。在这些策略的基础上，我们还引入了一种新的提示方法——隐式RAG。我们将详细介绍所有这些不同的提示符及其相应的模板。为了遵守英语语法的句法和语义规则，并与数据集特征保持一致，不同数据集的相同提示策略的提示模板可能略有不同。

基本提示模板用于这项技术，如图1所示。基本提示方法要求GPT尽可能简单地回答查询。职业占位符指定了GPT为回答所提问题而需要扮演的角色。根据数据集的来源，这个占位符在ProcessBank数据集中取值为生物学家，在BioMRC数据集中取值为生物医学研究者，在MASH-QA数据集中取值为消费者健康专家，在CliCR数据集中取值为医学专家。同样，根据数据集的来源，占位符context_type在ProcessBank数据集中取值为段落，在BioMRC数据集中取值为论文摘要，在MASH-QA数据集中取值为健康文章，在CliCR数据集中取值为临床病例报告。占位符query_type在ProcessBank数据集中取值为查询，在BioMRC数据集中取值为包含缺失实体的标题，在MASH-QA数据集中取值为查询，在CliCR数据集中取值为包含缺失实体的查询。query_text占位符包含查询的实际文本，同样context_text包含上下文的真实文本。选项占位符只存在于ProcessBank和BioMRC数据集中，并且包含在回答所提查询时可供选择的选项。

图1:基本提示模板

思维链推理(CoT) 使用思维链推理技术的基本原理是，可能有多个较小的问题需要先回答，才能得出最后一个问题的答案。例如，GPT的一个问题是:是否接受了至少6周的由医生指导的保守治疗?这个问题可以很容易地分成3个小问题，有没有进行过保守治疗?治疗是否由提供者指导?保守治疗的时间是多长?用于此技术的提示模板与图1中的提示模板完全相同，只是增加了一行，指示模型一步一步地思考。

类比推理(AR) 受Yasunaga等人(2023b)的启发，我们通过调整提示以适应我们的问题陈述来设计自己的类比推理策略。我们这样做是因为，与一般领域不同，GPT将无法回忆特定的数据集级别的知识，因为我们不确定它是否曾经在我们研究中使用的数据集上进行过训练。相反，我们构建提示，使GPT不需要大量依赖全局知识。为此，我们没有要求GPT根据其全局知识生成任何类型的相关QA对，而是要求GPT从给定的上下文中生成QA对，然后回答初始问题。该技术有一个超参数，即要生成的QA对的数量。

隐式检索增强生成（RAG） 大多数关于RAG的工作都涉及到基于接受的关联分数进行数据检索，然后使用LLM提示来回答给定查询。数据检索是通过将整个语料库（在我们的案例中是一个数据点的上下文）的编码器的嵌入存储在向量数据库索引中，然后检索与给定查询最匹配的数据点（文本摘录或数据点上下文的段落）。使用RAG背后的关键思想是，它有助于节省大量的计算成本并提高LLM的性能，因为它现在只需要在一个更小的知识空间中查找以回答所提问题。
在我们提出的新颖提示技术隐式RAG中，我们完全忽略了获取整个语料库的嵌入并将其存储在向量数据库中的开销。相反，我们要求LLM本身在给定的上下文中找到最相关的文本摘录或段落，这些摘录或段落可能有助于回答所提问题，然后稍后使用这些提取的段落来得出原始问题的答案。我们提出的提示技术的通用工作原理如图2所示。这个技术有两个超参数。第一个是要提取的段落数量，下一个是每个段落或文本摘录中的单词数量。用于这个技术的提示模板如图3所示。提供每个段落的数量和每个段落中单词数量的超参数值，分别放在占位符number_of_sections、lower_limit_length和upper_limit_length中。

图2:隐式RAG技术

图3:隐式RAG提示模板

5 结果与分析

我们使用GPT-4的32k上下文窗口版本来进行所有实验。我们将温度、频率惩罚和存在惩罚设置为0，并将GPT-4的最大令牌数设置为1000。所有数据集的结果将在下面单独讨论。基于不同实验的迭代，我们选择AR生成的问题对数量超参数为所有数据集的3。同样，对于隐式RAG，我们选择lower_limit_length和upper_limit_length的值分别为50和200，适用于所有数据集，除了MASH-QA。对于MASH-QA，我们选择lower_limit_length为0，upper_limit_length为300。我们选择隐式RAG的number_of_sections对于MASH-QA为1，对于ProcessBank为2，对于BioMRC和CliCR为3。

ProcessBank的结果如表2所示。我们在零样本设置中对150个数据点的整个测试集运行了所有4种提示策略。每个提示方法都优于之前提出的方法，从而在该数据集上为我们提供了一个新的SoTA。在不同的提示策略中，隐式RAG的提示效果最好。重要的观察结果是:

只有4到5个数据点GPT是错误的，要么是非常令人困惑的，甚至是人类回答或有一些错字或额外的标点符号在基本真理的答案，GPT无法模仿在其生成。
可以观察到，如果问题可以在给定的上下文中从一个小跨度中回答，那么所有的GPT提示策略的工作原理或多或少是相同的。隐式RAG能够胜过其他技术的原因是，这个数据集包括大约30%的时间和真假类型的问题，这些问题需要对整个上下文进行广泛的分析，并且答案可以在上下文的不同部分中传播。因此，通过提取相关部分来回答所提出的问题来减少知识空间有助于提高性能。

表2:ProcessBank上的结果。Berant等人(2014b)已经讨论了Gold Structure、ProRead、SyntProx、TextProx和Bow的结果。

BioMRC 数据集的结果列于表3中。由于成本相关原因，我们首先通过在测试集的随机选取的15%（1000个数据点）子集上运行不同的提示方法来进行比较，然后选择最佳的提示技术在整个测试集上运行。所有这些实验都是在零样本设置下进行的。在不同的提示技术中，基本提示方法获得了最佳结果，隐式RAG排名第二。重要的观察结果包括：

尽管BioMRC是BioREAD的更清洁版本，但数据集中仍然存在缺乏结构性的元素。例如，实体ID与实体之间没有1-1的映射。这意味着同一个实体可以被映射到多个实体ID，反之亦然，这在量化性能时会引起很多混淆。BioMRC的作者声称对于任何查询，摘要或上下文包含所有候选选项，包括正确答案，但这并不总是正确的，这导致了评估过程中的更多混淆。
有很多次GPT能够生成缩写答案，而不是其对应的完整形式。理想情况下，缩写和它们的完整形式都应被视为正确答案。
有时GPT作为一个生成模型能够产生语义上相似的答案，但它们仍然被标记为错误，因为它们与正确答案不完全匹配。在这里，基于嵌入的度量可能有所帮助。
有许多实体在语义和句法上是相同的，但仍然属于不同的本体，因此具有不同的实体ID。例如，在一个案例中，GPT生成了答案“氨基酸”，而正确答案是“氨基酸”，但由于这两个实体具有不同的ID，这个答案不得不被标记为错误。

除了数据集中缺乏结构之外，这里还需要注意的一个重要方面是，当谈论SoTA时，与GPT进行比较的监督模型的总体系统设计。监督模型使用可用数据的70%-80%作为其训练集，这使得它们的参数能够很好地了解数据集的细微差别，而在GPT的情况下，我们所有的实验都是在零样本设置下进行的。此外，由于GPT是一个生成模型，GPT生成一个不在候选答案列表中的答案的可能性很高，尽管最终答案在语义和句法上是相同的。但是，监督模型永远不会面临这个问题，因为它基于每个候选答案的置信度分数来做出预测，因此最终答案总是会在候选答案列表中。

表3:BioMRC的结果。Lu等人(2022)讨论了基于mlp的加权模型和带有BioBERT的AoA-Reader模型的结果，而Pappas等人(2020)解释了SciBERT-Max-Reader、AoA-Reader和AS-Reader模型的结果。

MASH-QA的数据集结果如表4所示。我们首先通过在测试集的随机选取的15%（600个数据点）子集上评估不同的提示策略来进行比较。这些实验都是在零样本设置下进行的。如表4所示，基本提示方法表现最佳，而隐式RAG排名第二。这里需要讨论的重要点包括：

MASH-QA中的QA对答案是相当主观的。这个数据集的作者没有指定任何结构化过程，健康专家在尝试回答原始数据集来源的网站上的问题时遵循了这一过程。深入分析表明，尽管GPT很多时候能够提取更好的答案，但由于它与真实答案不匹配，评估指标并没有反映出其真正的能力。
观察到隐式RAG的段落数量增加与性能下降之间存在相关性。原因是这个数据集中的答案是长跨度，因此随着段落数量的增加，上下文连续性会丢失，因为真实答案可能会跨越多个段落。这最终会混淆LLM，使其难以从不同段落中选择正确的句子集。因此，当要求从上下文中只提取一个段落时，它的表现最佳。但是，由于MASH-QA包含的答案可能出现在上下文的非连续跨度中，仅提取一个段落无法使隐式RAG成为表现最佳的提示方法。
可能会出现的一个问题是，为隐式RAG提取一个段落或将其超参数number_of_sections设置为1，是否使其与基本提示方法相同。只有当不仅从上下文中提取一个段落，而且将隐式RAG的超参数number_of_words设置为等于整个给定上下文的长度时，隐式RAG和基本提示方法才会相同。但对于MASH-QA，超参数number_of_words设置为300，下限为0，上限为300，因此它们是不同的。

再次强调，GPT在MASH-QA中的表现是与其使用总数据的70%-80%作为训练集的监督模型相比较的，这允许它们的参数在零样本设置中比像GPT这样的通用LLM更好地捕捉到更细粒度的细节。

表4:mashqa数据集上的结果。Bert, RoBERTa, XLNet, MultiCo和Tanda的结果已经在Zhu等人(2020)中讨论过。

CliCR的数据集结果可以在表5中看到。由于成本相关原因，我们首先通过在测试集的随机选取的15%（1100个数据点）子集上运行不同的提示技术来进行比较，然后选择最佳的提示方法在整个测试集上运行。所有这些实验都是在零样本设置下进行的。在不同的提示策略中，隐式RAG和AR在F1指标上获得了最佳结果。在精确匹配（EM）指标方面，AR的表现略优于隐式RAG。然而，对于生成模型来说，EM是一个非常严格的指标，因为可能存在许多语义上相似但并非错误的不同输出变体。由于AR在计算上比隐式RAG更快，我们在整个数据集上运行了AR。所有提示方法都优于之前提出的方法。GPT不仅超越了先前模型的性能，而且在击败新手人类结果的同时，也接近了专家人类的水平。重要的观察结果包括：

CliCR的作者提到，对于监督模型的训练，只使用那些至少有一个真实答案出现在临床病例报告或上下文中的实例。但对于评估部分，无论是验证集还是测试集，都包括了那些真实答案集与上下文中提到的实体没有交集的数据点。这有利于监督学习设置，因为监督模型有单独的训练和开发集，这可以使模型的参数学习到这样的提示。GPT仍然能够表现更好，可能是因为其参数中嵌入的全球知识为它提供了足够的证据来表现良好。
CliCR的作者在他们的工作中比较了当时的SoTA（GPT是新的SoTA）模型GA-NoEnt和人类专家之间的各种技能，并展示了它们之间仍然存在巨大的差距。由于GPT能够实现几乎与人类专家水平相当的性能，我们可以预期GPT在其他MRC任务中也会显示出类似的能力。
隐式RAG在这个数据集上表现良好的原因有很多。首先，这个数据集的上下文平均长度为1461个单词，这表明随着上下文大小的增加，同时分析上下文的不同部分来回答问题的机会很高，这正是隐式RAG的核心思想。接下来，CliCR的作者列出了这个数据集中70%的查询需要桥接技能，40%需要跟踪技能，大约25%需要时空技能。这三种技能都表明，回答这个数据集中的查询需要从上下文的不同部分推导出线索，这正是我们提出隐式RAG关键逻辑的背后。

表5:CliCR数据集上的结果。人类新手、人类专家、GA-Anonym、GA-Ent、GA-NoEnt、SA-Anonym和Sim-Entity的结果详见Šuster和Daelemans(2018)。

在我们在本研究中使用的四个数据集中，与其他提示技术相比，隐式RAG能够实现其中两个数据集的最佳结果。它在其他两个数据集中排名第二。可能出现的一个问题是，隐式RAG是否适用于无法适应LLM的32k令牌限制的上下文。在上下文大小大于32k的情况下，隐式RAG比其他提示技术表现得更好。在这种情况下，我们可以对上下文进行分组，并对隐式RAG进行多次调用，以检索给定查询的相关部分。一旦检索到所有相关部分，对隐式RAG的最后一次调用就可以使用这些部分到达一个答案。但是所有其他提示技术都需要同时分析整个上下文(在这种情况下超过32k)才能得到答案。
我们进一步对所有四个数据集随机选取的50个数据点进行定性分析。我们检查提取的部分与问题相关的次数。即使所有提取的部分中有一个是相关的，我们也认为这是一个有效的检索，而不管最终答案是正确的还是不正确的。结果如表6所示。正如我们所看到的，隐式RAG在大多数情况下能够提取相关的部分。

表6:ProcessBank、BioMRC、MASH-QA和CliCR上隐含RAG的定性分析

6 结论

在这项工作中，我们表明，即使在零射击设置中，GPT在四个基准中的两个方面也超过了监督模型的性能。此外，GPT的性能接近人类专家的基准之一。我们的研究证实，法学硕士确实超越了预想的技术，甚至在生物医学等难以建模的领域也是如此。我们还提出了一种新的提示方法隐式RAG，该方法在四个数据集中的两个数据集上获得了最好的结果，在其他数据集上排名第二。这为RAG领域开辟了一个新的研究方向，允许其他研究人员在其他领域数据集上实验该技术。

7 局限性

由于与使用GPT进行大规模实验相关的成本，我们在本工作中讨论的四个数据集中的三个数据集上对整个测试集的约15%的子集进行了不同提示技术的比较。与整个测试集相比，我们选择的随机子集的分布可能会有细微的差异，这可能会潜在地改变给定提示技术获得的最终结果，尽管我们期望差异很小。如前所述，在查询的答案可以在上下文的一个小范围内找到的情况下，不同的提示技术之间没有太大的差异。因此，与运行AR或隐式RAG等较重的提示策略相比，运行基本提示方法在计算上更便宜。