论文KNOWLEDGE CARD阅读笔记

祀安

已于 2024-01-23 14:59:36 修改

阅读量1.5k

点赞数 36

文章标签：论文笔记

于 2024-01-23 14:57:42 首次发布

本文链接：https://blog.csdn.net/m0_52718978/article/details/135677078

版权

KNOWLEDGE CARD

KNOWLEDGE CARD: FILLING LLMS’ KNOWLEDGE GAPS WITH PLUG-IN SPECIALIZED LANGUAGE MODELS

关键词： 大语言模型、黑盒语言模型、模块化和协作知识

这篇来自2024ICLR审查中的论文提出了一个名为"KNOWLEDGE CARD"的模块化框架，旨在解决大型语言模型（LLMs）由于静态、通用性强、难以频繁更新而导致的生成的知识缺乏实时性、相关性和准确性的问题。

前言

大模型在知识密集型任务和环境中难以更新知识，容易产生幻觉。针对幻觉现象的修正，主要有两个大的方向，一个是通过检索增强，引入外部知识鼓励模型生成正确的答案；另一个是ModelEditing，修改模型的参数知识，使其更好地适应特定任务的知识要求。这篇文章所提出的KNOWLEDGE CARD 思想类似于检索增强，利用了检索系统和外部知识来弥补通用模型的知识不足，从而提高其在各种任务和数据集上的性能。

提示：以下是论文的部分翻译，并不会全面

一、摘要

大型语言模型（LLMs）是静态的通用模型，频繁重新训练或更新成本较高。随着它们在知识密集型任务中的越来越广泛的应用，显然这些设计选择导致了生成事实、相关和最新知识的失败。为此，我们提出了"KNOWLEDGE CARD"，这是一个模块化框架，可将新的事实和相关知识插入通用型LLMs。我们首先介绍了"knowledge cards"——在特定领域和来源的语料库上训练的专业化语言模型。Knowledge cards作为参数化仓库，在推理时被选择以为基础LLM生成背景知识。接着，我们提出了三种内容选择器，动态选择和保留由knowledge cards生成的文档中的信息，特别是控制输出的相关性、简洁性和事实性。最后，我们提出了两种互补的集成方法，以用从专业LM中策划的（相关、事实）知识增强基础LLM。通过广泛的实验证明，KNOWLEDGE CARD在六个基准数据集上实现了最先进的性能。最终，KNOWLEDGE CARD框架实现了对来自不同领域的知识的动态综合和更新。其模块化性将确保相关知识可以通过研究社区的共同努力进行持续更新。

二、引言

大型语言模型（LLMs）已经展示出在模型参数中编码世界知识的印象深刻能力。然而，它们在知识密集型任务和环境中仍面临各种挑战：它们容易产生幻觉，难以编码长尾事实，并且不能轻松更新新兴知识。现有的作品通过检索增强或生成知识提示来解决这些限制。检索增强型LMs（利用检索系统从通用且固定的检索语料库（例如维基百科或Pile）中提取相关文档，利用非参数源的外部知识来帮助LLM生成。生成知识提示方法提示LLMs合并和生成上下文文档，以鼓励具备知识感知的生成。

虽然这两个工作方向取得了一些成功，但这些现有系统难以反映知识的两个关键属性。知识是模块化的：它是一个“群岛”而不是一个单一的“大陆”，包含以多样化的形式、领域、来源、视角等存在的信息。知识的缺乏模块化性使得难以将存储在LLMs中的知识推广到新领域和有针对性的更新。知识是协作的：LLMs应该能够表示和整合来自多方面源头和视角的多样化和不断发展的知识，同时促使各方参与协同贡献。社区驱动的知识可以汇总来自领域专家的新知识，并促使开发专门的LLMs，以适用于特定的行业或应用。然而，现有的方法和系统没有使用模块化或协作的知识源，这些源可实现来自各方的即插即用的更新和贡献。虽然检索增强等方法可以用于实现模块化，但它们与当前模型共享的现状几乎不兼容，并且不便于社区驱动的努力填补LLMs知识差距。

为此，我们提出了KNOWLEDGE CARD，这是一个新颖的框架，通过整合更小但专业化的语言模型，为通用型LLMs赋予模块化和协作源的知识。随着越来越多强大的LLMs发布在API调用背后，不直接可访问，并且训练或调整成本过高，KNOWLEDGE CARD专注于增强黑盒LLMs以丰富其知识能力。我们首先整理专业LMS，即knowledge cards，这些卡是在不同来源和领域的语料库上训练的，用作模块化的知识存储库。与现有方法相比，knowledge cards使得可以灵活和有针对性地访问信息，搜索领域，并使用私有和个性化的知识源。然后，这些专业LMS被提示生成支持通用型LLMs的背景信息。我们接着提出了三个级别的知识选择器，以动态选择和完善生成的文档，并控制主题相关性、文件简洁性和知识事实性。最后，我们提出了自下而上和自上而下两种方法，以通过整合专业LMS的输出（即将knowledge cards插入LLM）来增强通用型LLMs。具体来说，自下而上的方法首先通过提示所有knowledge cards生成多个文档，然后使用三个知识选择器进行选择，同时将最终的知识段与LLM生成的查询进行连接。虽然自下而上的方法独特地实现了多领域知识的综合，但在外部信息不需要的情况下，它也存在呈现与LLM上下文无关的信息的风险。这促使我们提出自上而下的方法，其中通用型LLM本身决定给定查询是否需要外部知识，然后选择性地激活相关的knowledge cards进行知识整合；此过程重复直到通用型LLM具有足够的信心生成响应。

大量实验证明，KNOWLEDGE CARD在三个任务上跨越六个数据集上优于普通LLMs、检索增强型LMs和生成提示方法。对于通用型知识问答，KNOWLEDGE CARD在MMLU上提高了Codex性能6.6%，甚至优于3倍大的Flan-PaLM。对于测试多领域知识综合的误导分析，KNOWLEDGE CARD在两类和四类分类设置上至少提高了15.8%和10.0%的平衡准确性分数。在第三个任务中，评估更新通用型LLMs知识的能力，我们整理了MIDTERMQA，这是一个关注2022年美国中期选举的QA数据集，而LLMs的知识截止日期通常是2021年或更早。实验证明，KNOWLEDGE CARD在完全匹配分数上至少优于所有基线55.6%，展示了在添加一个仅用于中期选举新闻的知识卡的情况下实现时间知识更新的能力，该知识卡的参数比通用型LLM少100倍。我们的研究结果表明，通过整合来自小型、独立训练的专业LMS的模块化和协作知识，有望填补通用型LLMs的知识空白。我们将KNOWLEDGE CARD视为一项倡议，鼓励LM开发者在扩展大型语言模型的知识时进行合作，同时减少从零开始重新训练庞大LLMs的碳足迹。

三、方法

我们引入 KNOWLEDGE CARD，这是一个新颖的框架，旨在为通用语言模型提供模块化和协作的知识（图1）。我们训练了各种知识卡，这些卡是在各个领域和来源的专业知识语料库上训练的语言模型（§2.1）。然后，我们使用它们为通用语言模型生成背景知识，同时使用三个知识选择器来确保知识综合的质量（§2.2）。最后，我们提出了自下而上和自上而下两种方法，用于将通用语言模型与从知识卡中获取的内容进行条件化，并使用知识选择器进行后处理（§2.3）

我们对各种知识领域进行知识卡的训练，并使用三个知识选择器进行质量控制。我们提出了自下而上和自上而下的方法，将通用语言模型与模块化和专业化的语言模型集成，以实现多领域知识合成（自下而上），并促使通用语言模型主动寻求外部知识（自上而下）。
这张图片展示了一个自然语言处理（NLP）系统的两种不同的知识检索过程：自下而上（Bottom-Up）和自上而下（Top-Down）。

自下而上（Bottom-Up）：

用户向一个通用目的语言模型（general-purpose LLM）提问：“谁是汤姆·布雷迪出生地的高级参议员？”
模型首先检索相关知识
然后，知识被整理成卡片，并通过几个选择器进行筛选：事实选择器、修剪选择器和相关性选择器，以确保回答的准确性和相关性。
最后选择出来“圣马特奥位于加利福尼亚州的西北部”、“黛安·范斯坦是来自加利福尼亚州的高级参议员”，以及“汤姆·布雷迪回到了他的家乡圣马特奥”。
最终，模型回答了提问，确认“黛安·范斯坦”是那个人。

自上而下（Top-Down）：

与自下而上过程不同，这个过程首先确定用户是否需要更多信息来回答问题：“汤姆·布雷迪的出生地是哪里？”
用户可以选择“Yes”或“No”来表示是否需要更多信息。然后系统通过自动选择或经验选择来确定需要哪种类型的信息，例如体育、金融、历史等。
在这个例子中，用户选择了“体育”作为信息来源。最后，系统检索和选择相关的知识文档，并通过事实选择器来确保信息的准确性。
最终，通用目的语言模型利用这些信息回答了问题，同样指出了“黛安·范斯坦”。

3.1 KNOWLEDGE CARDS

尽管现有方法依赖于一个固定的知识源来改进语言模型（一个检索语料库，一个知识图或一个预训练的语言模型本身），但我们假设由于知识是模块化的，通用语言模型应该与模块化的即插即用知识存储库相结合，允许用户协作添加、删除、编辑或更新信息。此外，不同的社区可能对知识有不同的定义和要求。维基百科的事实、生物医学文献、数学公式和常识知识图都是有价值的知识组件。在多方面的领域和行业中，语言模型（LLMs）应该能够代表和整合由各方利益相关者贡献的知识。

为了实现这个目的，我们提议创建知识卡片，这是一种专门的语言模型，比黑盒LLMs小得多，它们在来自多个领域和来源的多元化知识语料库上进行训练。具体来说，我们获得了n张知识卡片 $\{c_1, c_2, \ldots, c_n\}$ ，每一张都是从一个现有的语言模型cheakpoint开始，并在特定的知识语料库 $D_i$ 上进一步训练，以因果语言建模为目标。给定一个查询q到LLM，这些知识卡片被选择性激活并使用以生成提示回应。正式地，给定查询q，专门的LM定义了一个映射 $c(q)：q → d_q$ ，其中q被用作提示来生成知识文档dq的延续，这些后来被预先加入到通过各种机制（§2.3）的通用LLMs的上下文中。

通过这种方式，通过无需努力就可以添加、移除或选择性激活不同知识卡片的方式，展示了知识的模块化。类似地，通过允许个人将他们希望的知识来源贡献到KNOWLEDGE CARD上，反映了知识的协作性质，通过社区推动的努力扩展了通用LLMs的知识。

3.2 KNOWLEDGE SELECTORS

虽然可以直接采用 $d_q$ 作为相关知识，我们在成功整合知识卡片和通用目的LLMs时确定了三个关键挑战：相关性、简洁性和事实性。我们设计了三个相应的选择器来控制这些因素。

Relevance Selector

虽然我们期望知识卡片能生成与查询q相关且有帮助的背景信息，但LLMs有时会偏离查询。此外，只有少数知识卡片对于给定的查询是相关的。为此，我们提议根据相关性来选择和保留知识文档。具体来说，给定一组由m个生成的文档 ${d_1, ..., d_m\}$ 和查询 $q$ ，我们旨在保留最相关的top-k个文档并丢弃不相关的信息。我们采用了一个单独的基于编码器的LM enc(·)来映射一个令牌序列到特征向量和余弦相似度sim(·,·)来衡量相关性。形式上，我们保留d $_i$ ；如果 $i ∈ top-k_j（sim(enc(dj), enc(q))）$ 其中top-k是最大k个argmax操作。

Pruning Selector

现有工作大多将一个外部知识片段整合到LLMs中（Sun et al., 2022; Shi et al., 2023），而需要整合多个信息领域的任务，例如错误信息检测和多跳问答，并不完全受现有范例的支持。为了有效地整合来自多个渠道生成的文档，我们提议对知识文档进行修剪，采用一种操作化的最简单的汇总方法({d₁’, …, dₘ’})，这种修剪方法允许知识文档更好地整合到主LLM版本中，同时保持信息内容的完整性。

Factuality Selector

语言模型容易出现“幻觉”，知识卡片也不例外。给定一组m个修剪过的知识文档 ${d˜_1，· · ·，d˜_m\}$ ，它们的原始版本为 ${d_1, ..., d_m\}$ ，以及查询q，我们滤除非事实性的知识并保留ℓ个文档。具体而言，我们通过两个度量来评估知识文档的事实性。

首先，我们评估摘要的事实性，确保修剪版本 $d˜_{i}$ 在事实上捕捉了原始 $d_i$ 中的重要要点。具体而言，我们采用事实性评估模型作为评分函数sum-fact(·,·)，其中每个知识文档d被分配一个摘要事实性分数 $s^{sum}_{di} = sum-fact(d˜ | d) ∈ [0, 1]$ 。

我们随后提出通过检索增强的事实检查来评估生成的知识文档是否得到实际世界知识的良好支持。具体而言，对于给定的知识文档d，我们从检索语料库 $t_1$ ，. . .， $t_k$ 中检索k个文档，然后利用一个事实检查模型作为评分函数fact-check(·, ·)。接着，我们基于最支持d的检索文档为d分配一个经过事实检查的事实性分数，形式上 $s_d^{factd} = max_1≤_i≤_k fact-check(d | t_i) ∈ [0, 1]$ 。然后，我们对每个文档的摘要事实性分数和事实检查分数进行平均，以获得 $s_d$ 。

虽然贪婪地选择具有最高 $s_d$ 分数的ℓ个知识文档是直观的，但新的和更近期的知识可能得不到现有事实检查工具的良好支持。因此，我们提出了top-k事实性抽样，以在对明显错误的知识文档保持严格的同时提供一定的灵活性。具体而言，我们首先获得 $D^k$ 作为具有前k个事实性分数的知识文档集，其中k > ℓ是一个超参数。然后，我们在所有m个知识文档上定义一个采样概率分布：
$p(d_i | q) = \begin{cases} \frac{\exp(s_{d_i})}{\sum_{d_j \in D^k} \exp(s_{d_j})}, & \text{if } d_i \in D^k \\0, & \text{if } d_i \notin D^k \end{cases}$
我们使用概率分布 ${p(d˜1 | q), · · · , p(d˜m | q)}$ 从 ${d˜_1, · · · , d˜_m\}$ 中采样 ℓ 个知识文档。通过这种方式，严格排除了事实性得分非常低的知识文档，同时通过从得分接近顶部的知识中进行采样，增加了灵活性

就是先用相关性过滤大部分文档，但是相关性分数高的文档不一定与现在的这个问题相关，于是用了一个事实性评估模型评估文档与问题的事实性分数，用了一个类softmax概率分布采样事实性分数高的知识文档。

3.3 KNOWLEDGE INTEGRATION

在定义了KNOWLEDGE CARD（一种通用LLM、知识卡片和知识选择器组件）之后，我们提出了两种方法，用于将通用LLM与外部知识源整合。这些选择的输出是知识卡片，具体来说，bottom-up方法通过知识选择器来控制知识质量，启用多领域知识综合，而top-down方法则在不总是需要外部知识的任务和领域中优势明显。

自下而上方法
自下而上的方法通过提示可用的知识卡片来开始，然后这些输出会被整合到LLM的提示上下文中。具体来说，给定n个知识卡片 $C=\{c_1,...,c_n\}$ 和查询 $q$ ，我们通过温度采样生成 $n_1$ 个文档，然后应用相关性选择器来保留最相关的 $n_2$ 个文档，通过剪枝选择器进行知识剪枝，最后利用事实性选择器获得高质量的知识文档。

最终提示格式为知识文档和查询的串联，形式为“ $\text{Knowledge:} \ || \ d_1 \ || \ d_2 \ || \ ... \ || \ d_{n_3} \ || \ q$ ”，其中||表示串联。我们预期自下而上的方法在多领域知识综合中非常强大，因为可以激活多个知识卡片以提供多角度的背景知识。

自上而下方法
在自下而上的假设中，我们假设每个查询都会受益于从知识卡片生成的知识。但这可能引入不必要的信息，从而负面影响LLM推理。我们提出了自上而下的方法，让LLM通过提问识别是否需要额外信息，并且仅在需要时激活相关的知识卡片。

具体而言，对于n个知识卡片 $C=\{c_1,...,c_n\}$ ，我们也要求知识卡片的贡献者提交一个文本描述的 $LLMs S=\{s_1,...,s_n\}$ ，例如“生物医学文献”、“学院讲座”或“常识知识模块图”。我们首先询问LLM一个特定问题，以确定是否需要外部知识，例如“你需要更多信息吗？（是/否）”。我们鼓励更好地校准回答是/否问题的答案，特别是通过上下文学习。具体来说，我们引入了一组上下文学习示例，包含两种不同类别的问题，这些问题被提问给LLM。第一类问题是LLM可以准确不需要额外信息回答的。对于这些问题，如果LLM回答“不”则意味着正确。第二类问题是需要额外信息才能正确回答的。在这种情况下，相应的输出是“是”。

自动选择（AUTO）
我们进一步使用提示“你需要什么类型的信息？”来提示LLM，并根据它的回答 $r_q$ 来选择一个知识卡片。具体地，我们使用相关性选择器（参见第3.2节）来识别哪个语言模型描述 ${s1_,..., s_n}$ 与 $r_q$ 最相关，并激活对应的语言模型来生成多个知识文档，然后根据事实性选择器（第2.2节）选择一个得分最高的文档来获得d。
明确选择（EXP）
或者，我们直接要求LLM通过提示“从以下信息源中选择一个： $s_1, ...,s_n$ ”来选择一个知识卡片。如果LLM回答 $s_i$ ，我们激活对应的知识卡片ci来生成多个知识文档，并选择一个最有事实性的文档来获得d。

获得文档后，我们将“Knowledge: d”附加到LLM的上下文中。然后我们迭代地询问“你需要更多信息吗？（是或否）”，重复上述过程，直到LLM回答“否”并生成一个基于知识的回答。我们预计，在不总是需要外部知识的情况下，自上而下方法会表现得更好。通过这种方式，自上而下的方法使LLM能够主动识别它们固有的知识限制，并主动寻求外部知识卡片的帮助。

四、实验设置

对于知识卡片，我们以OPT-1.3B作为起点，并且在包括Pile语料库、分支训练合并、知识图谱、新闻和社交媒体等广泛的知识源和领域上分别训练了25个专门的语言模型。我们使用MPNet作为相关性选择器中的编码器，使用Pegasus作为剪枝选择器中的总结模型，使用WikiSearch API作为事实性选择器中的检索系统，并使用FactKB和VitaminC作为总结和事实检查的事实性评分函数。我们使用Codex作为默认的通用黑盒LLM。

在这里插入图片描述

表格1：在MMLU基准测试上的模型性能。 KNOWLEDGE CARD相较于Codex的提升至少为3.5%，而top-down优于所有基准模型。

在这里插入图片描述

表格2：对于虚假信息检测的性能。BAcc和MaF分别代表平衡准确率和宏观F1。由于多领域知识的整合，bottom-up表现最佳。

在这里插入图片描述

表格3：在MidtermQA上的性能。通过添加一个单一知识卡片，KNOWLEDGE CARD成功更新了Codex的知识。

对于通用目的的问答，我们采用MMLU，这是一个涵盖人文、STEM、社会科学等57个任务的多项选择问答数据集。在前期研究的基础上，我们采用了5-shot in-context学习设置。

为了评估多领域知识合成，我们采用了虚假信息检测，因为新闻文章通常涵盖不同领域和观点交汇处的事实和观点。我们利用了广泛采用的LUN虚假信息检测数据集，其中包括2-way和4-way分类设置。所有模型均基于16-shot in-context学习进行评估。

为了评估时间性知识更新，我们策划了MIDTERMQA，一个聚焦于2022年美国中期选举的问答基准，因为黑盒LLM的知识截止日期通常是在2021年或更早。MIDTERMQA提供了三个评估数据集和设置：开放书本、2-way和4-way多项选择。我们采用了5-shot in-context学习来评估KNOWLEDGE CARD和基线。我们没有考虑现有的时间性问答数据集，因为它们不专注于任何特定事件或知识领域。

Baselines

我们将KNOWLEDGE CARD与三类广泛的基线方法进行比较。

原始的黑盒LLMs：Codex，PaLM，Flan-PaLM；
生成知识提示方法：GKP，recitation，GRTR意，为了公平比较，我们将这些方法应用于相同的LLM Codex；
检索增强语言模型：Atlas，RePlug和RePlug LSR。

shot in-context 就是设置上下文学习的示例数，2-way、4-way是设置分类数目

五、实验结果

在这里插入图片描述

图2：当每个知识卡片单独添加时，对虚假信息检测的性能。KNOWLEDGE CARD使得可以对LLMs进行模块化修补，而领域内知识卡片帮助最多。

在这里插入图片描述

图3：对虚假信息检测的三个知识选择器的割离研究。虽然这三个选择器都对模型性能有所贡献，但事实选择器最为关键。

MMLU

对于通用知识问答，我们使用了MMLU基准测试（Hendrycks等人，2020）。如表1所示，KNOWLEDGE CARD的所有三种配置都显著提高了原始的Codex性能。其中，具有显式选择的自上而下方法表现最佳，总体准确率提高了6.6%。与此同时，自上而下的方法在所有基线中均表现出色，包括Flan-PaLM，其参数数量多出几百亿。这些结果表明我们提出的方法在使通用性LLMs在知识密集型环境中表现更好方面是有效的。此外，自上而下的性能普遍优于自下而上，可能是因为MMLU包含与数学相关的问题，这些问题不需要外部知识。这一观察结果表明，在外部知识并非总是必要的任务中，自上而下的方法更为优越。

虚假信息检测

为了检验KNOWLEDGE CARD是否成功整合了来自多元化来源的多方面知识，我们采用了LUN虚假信息数据集（Rashkin等人，2017），其中包括两种和四种分类设置。表2显示，KNOWLEDGE CARD在两种设置下都显著提高了Codex的平衡准确率，分别提高了至少31.7%和19.4%。此外，由于其联合激活来自不同领域的知识卡片并实现多领域知识综合的方法，自下而上的性能优于自上而下的两个变体。

MidtermQA

为了检验KNOWLEDGE CARD是否能够更新LLMs的参数化知识，我们在涉及2022年美国中期选举的新闻文章上额外训练了一张知识卡片，并将其插入到KNOWLEDGE CARD中。我们在表3中展示了MidtermQA上的模型性能，结果表明KNOWLEDGE CARD在开放书本设置中的准确匹配分数（EM）上大幅优于所有基线，最高提高了57.3%。这表明一个具有13亿参数的知识卡片通过KNOWLEDGE CARD成功更新了1750亿参数的Codex的参数化知识。此外，自上而下的表现优于自下而上，表明当任务领域与特定知识卡片相关联时，选择性激活知识卡片更为有效。KNOWLEDGE CARD还优于使用相同中期选举新闻作为检索语料库的SI ET AL.（Codex + Contriever）。此外，生成知识提示方法（GKP、recitation、GRTR）的表现低于原始的Codex，显示在内部LLM知识过时或错误时，对LLMs进行明确知识的探测是适得其反的。

知识流分析

在底部方法中，有三个超参数（§2.3）控制着从知识卡片到通用性LLMs的“知识流”。具体而言，n1控制每个LM生成多少文档，n2控制在三个知识选择器之后保留多少文档，n3控制将多少文档放入LLMs的上下文中。我们对这些控制措施进行了调查，并在图4中报告了性能。结果显示：

n1对性能影响较小，表明即使采用温度采样（Caccia等人，2018），知识卡片生成的知识基本上是同质的。
较大的n2导致性能下降，表明三个知识选择器确保了知识质量。
n3 =1，即一次仅采用一个知识文档（如先前的作品中所采用的比较较大的值差，显示了KNOWLEDGE CARD独特启用的多领域知识综合的优势。

六、实验分析

在这里插入图片描述

表4： KNOWLEDGE CARD在仅使用Wikipedia的设置中优于检索LMREPLUG，这表明模块化LMs比检索提供了更好的知识存储库。

在这里插入图片描述

图4：调查n1、n2和n3的影响，它们控制了来自模块化知识卡片到通用性LLMs的知识流。这些超参数使得能够对知识综合过程进行精细控制。

在这里插入图片描述

图5： KNOWLEDGE CARD与其他LLMs兼容，具体而言是TEXT-DAVINCI-003和GPT-3.5-TURBO。

在这里插入图片描述

图6：自上而下的是/否和正确性的混淆矩阵，实现细粒度的错误分析。

在这里插入图片描述

表5：尽管普通的Codex错误地声称这些现任在2022年的选举中再次获胜，但KNOWLEDGE CARD成功地更新了黑盒LLMs的知识。

修补LLM知识

当通用性LLMs由于知识限制而在任务中表现困难时，KNOWLEDGE CARD可以作为一种有效的方法，通过添加专门的语言模型来修补LLM的弱点。为此，我们评估了在使用自上而下方法增强Codex时分别添加五张知识卡片时性能的变化。图2中的结果显示，用所有五个LMs修补LLM会在虚假信息检测上带来不同程度的性能提升，而最具领域内LMs（Wikipedia和新闻）会导致更大的改进。这表明当LLMs在知识密集型任务上表现不佳时，通过KNOWLEDGE CARD增加在领域内语料库上训练的额外知识卡片可以提供帮助。

知识选择器研究

我们提出了三个层次的知识选择器，以控制各种因素并确保知识质量。我们进行了割离研究，分别删除底部方法中的每个知识选择器，并在虚假信息检测上重新评估。图3显示，虽然所有三个知识选择器都是有帮助的，但事实选择器对模型性能的贡献最大，因此在确保生成的知识文档质量方面发挥着关键作用。

检索 vs. 专业化LMs

为了评估模块化专业化LMs与检索等非参数源的有效性，我们在KNOWLEDGE CARD中专门使用Wikipedia LM，并与使用Wikipedia作为检索知识源的最先进检索LM REPLUG进行比较。表4显示，KNOWLEDGE CARD在虚假信息检测的两个设置中均优于REPLUG，表明知识卡片呈现出更好的知识存储库。请注意，KNOWLEDGE CARD还与多种知识格式兼容（例如，检索和搜索引擎），而它们可以是互补的（附录A）。

LLM兼容性

虽然我们遵循先前的作品（Sun等人，2022; Shi等人，2023）并采用Codex作为默认的黑盒LLM，但KNOWLEDGE CARD与不同模型兼容。我们额外使用另外两个LLMs，TEXT-DAVINCI-003和GPT-3.5-TURBO，评估KNOWLEDGE CARD的性能，并在图5中呈现结果。底部方法和自上而下方法在不同的LLMs上持续改进，涵盖各种数据集和评估指标。

自上而下中的Yes/No

在自上而下的方法（§2.3）中，我们首先询问LLMs是否可能需要外部知识来回答给定的查询，并采用上下文示例来鼓励经过良好校准的答案。我们在图6中说明了LLM的响应以及其答案的正确性。绝大多数查询被映射到“是，正确”和“否，正确”的类别，表明LLMs有初步的“知道自己知道什么”的能力，并在必要时寻求外部信息。然而，这种能力远非完美，可见于“否，不正确”的类别中存在不可忽视的情况，这表明促使LLMs承认知识限制需要进一步的研究（Kadavath等人，2022; Zhao等人，2023），而新的避免方法可以轻松集成到KNOWLEDGE CARD中。此外，“是，不正确”的类别表明专业化的LLMs有时未能提供足够的信息。这些混淆矩阵提供了细粒度的错误分析，并指导通用性LLM、是/否问题或知识卡片是否需要进一步改进。

定性分析

我们策划了MIDTERMQA来评估KNOWLEDGE CARD是否能够实现高效的知识更新。我们研究了88个现任未连任的选举中的情况：Codex在这88个问题中只回答了1个正确，而底部方法和自上而下方法（带有自动和显式选择）分别回答了63、77和42个正确。表5显示，Codex声称现任将在2022年再次获胜，而KNOWLEDGE CARD成功通过100倍更多的参数更新了LLMs。

七、相关研究

检索增强语言模型

通过在语言模型中引入检索，已经推动了开放领域问答（Guu等人，2020；Izacard等人，2022；Lewis等人，2020；Hu等人，2022）、文本分类（Zhao等人，2023）以及语言建模（Hu等人，2022；Borgeaud等人，2022；Min等人，2023）的最新技术。检索系统可以集成到编码-解码模型（Izacard等人，2022）和仅解码模型（Borgeaud等人，2022；Shi等人，2022；Rubin等人，2022）中，或者用于插值下一个标记的概率分布（Khandelwal等人，2019；Zhong等人，2022）。最近的进展包括冻结的检索器（Mallen等人，2023；Si等人，2022；Khattab等人，2022）和可训练的检索器（Shi等人，2023），以及搜索引擎（Press等人，2022），以增强LLMs。与检索模型和搜索引擎相比，KNOWLEDGE CARD使得信息获取更加灵活，可以搜索知识领域，还可以利用私有知识源。此外，这些研究通常只利用一个检索语料库，并假设它是“全知”的，但仍然存在一些问题，比如领域覆盖和知识更新。相反，我们建议通过将即插即用的知识卡片与通用LLMs集成，来反映知识的模块化和社区驱动的特性。

生成知识提示

生成知识提示的语言模型通过在庞大的文本语料库上进行训练获取知识（Petroni等人，2019；Dhingra等人，2022；He等人，2021）。生成知识提示（Liu等人，2022a）是通过提示它们生成背景信息，并在问答中重新使用它的早期方法之一。相关工作还提出使用LM参数化的知识进行检索（Tay等人，2022），使用自我对话回答常识问题（Shwartz等人，2020），生成查询（Wang等人，2022；Zhuang等人，2022）或用于文档增强的令牌序列（Bevilacqua等人，2022）。此外，受到多样化知识朗读的启发，增强问答模型（Sun等人，2022）提出将QA示例与多样化知识朗读相结合，而（Yu等人，2022）表明，在某些情况下，生成的知识优于检索。然而，这一系列工作假设编码的知识在LLM参数中就是我们所需要的，而LLM知识容易出现幻觉（Ji等人，2023），难以编码长尾事实（Mallen等人，2023），并且无法高效更新（De Cao等人，2021）。尽管最近的研究提出了编辑LLM知识（Meng等人，2022；Hernandez等人，2023），但它们与黑盒LLMs几乎不兼容。此外，LLMs中的参数化知识远非模块化和协作，而LM应该能够整合LLM研究和应用中所有利益相关者贡献的知识。为此，我们提出KNOWLEDGE CARD作为一个社区驱动的倡议，通过共享和重用知识卡片，赋予通用LLMs模块化和协作的知识。

模块化LMs

专家混合（MoE）（Masoudnia＆Ebrahimpour，2014）旨在基于输入实例激活一个专家，已在语言模型研究中得到应用（Gururangan等人，2022；Roller等人，2021；Lewis等人，2021；Kudugunta等人，2021；Pfeiffer等人，2022）。适配器也被提出用于任务转移和参数高效调优（Houlsby等人，2019；Pfeiffer等人，2020；Zaken等人，2022）。此外，参数平均（Matena＆Raffel，2022；McMahan等人，2017；Izmailov等人，2018；Wortsman等人，2022；Li等人，2022；Gururangan等人，2023），模型融合（Don-Yehiya等人，2022；Borzunov等人，2022），持续学习（Jang等人，2021；Qin等人，2022；Ke等人，2022；Qin等人，2023）和其他协作方法（Kopf ¨等人，2023；Sha，2023；Luo等人，2023）也为分布式LM训练的可能性提供了启示。然而，现有的模块化LMs大多在白盒设置中运行，即假设可以访问模型参数、标记概率等。由于最显著的LLMs仅通过API调用发布，我们提出KNOWLEDGE CARD，旨在通过社区驱动和协作的知识赋予黑盒通用LLMs。

总结

感觉这个和langchain知识库很相似，一个langchain知识库的小领域知识就是一个模块化的知识，但langchain并没有应用事实选择器来进一步选择相关性文档。
幻觉数据集可以尝试与虚假新闻联系。
~~有机会再细读吧~~

祀安

关注

36
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
论文KNOWLEDGE CARD阅读笔记

Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models阅读笔记，对论文进行了部分翻译
复制链接

扫一扫