AI领域的黄金组合,你准备好了吗?

图片

智能革命的风暴眼:大模型与知识图谱的终极联盟,重塑AI未来格局!

©作者|Haoyang

来源|神州问学

一、背景介绍

1. LLM的最新进展

以ChatGPT为代表的生成式大模型在“大参数+大数据+大算力”的支持下,使得模型能够学习、理解更多的特征和模式,具备了惊人的自然语言理解能力,在意图识别、推理、语言生成等各个自然语言相关的通用的处理任务中取得了前所未有的成绩。

从发展路线来看如图1所示,从早期的Word2Vec到预训练模型ELMo等的早期探索,再到Bert、GPT系列的惊艳登场,ChatGPT的一飞冲天和众多基座模型的百花齐放,大模型不仅在参数规模和预训练数据规模上不断增加,也从初期的语言模型延伸发展到多模态、语音、图像、视频等各个领域。前段时间OpenAI提出的Sora文生视频模型更是给人们带来前所未有的体验。基于LLM的智能体更是成为研究热点,让具有感知、控制和行动的能力智能体在通往AGI的道路上不断发展、进化。

图片

图1:大语言模型进化树

此外,大模型服务平台也正向个人开放,并在商业落地应用上延伸,为用户提供了多种使用大模型的途径。比如,OpenAI API最先为公众开放访问平台;来自百度的文心一言等加入插件,通过外部工具、服务的调用提高了完成下游任务的能力等等。

然而,大模型技术仍处于初级研究阶段,存在许多亟需解决的问题,例如大模型生成内容与现实世界事实或用户输入不一致产生“幻觉”;作为黑盒模型,在参数中隐式地表示知识而很难解释和验证大模型掌握的知识和推理结果;在通用语料库上训练的大模型缺乏特定领域知识而无法应用到垂直领域等等。总的来说,这些问题包括但不限于模型的可解释性、模型机理研究、与现实世界的可交互性、安全可控性、伦理道德问题以及如何对接下游任务等。

2.   知识图谱在促进大模型当下发展的重要性

如图2所示,知识图谱通常以三元组的方式存储现实世界中的事实,即(头实体、关系、尾实体),将实体表示为节点、关系表示为节点之间相连的边,所构成的描述语义关系的图即为知识图谱,是一种结构化的知识表示方式。

图片

图2 : 不同类别知识图谱的例子,即百科知识图谱、常识知识图谱、特定领域知识图谱和多模态知识图谱

知识图谱具有准确而又显式的知识,并能通过符号推理产生可解释的结果。且现有知识图谱往往针对特定领域或下游任务而构建,具备精确可靠的领域知识。但已有知识图谱构建方法难以处理现实世界中动态变化的事实,无法有效建模未知实体来表示新的知识,此外它也忽略了文本背景中丰富的文本信息。

为此,如何结合大模型和知识图谱,结合各自的优势取长补短、相互促进也是最近研究的热点。他们各自的优势和缺点总结如图3所示。

图片

图3:大模型与知识图谱各自优缺点汇总

本文总结了统一大模型和知识图谱的前瞻性路线图,以利用各自的优势并克服每种方法的局限性,最终用于各种下游任务。我们对结合路线进行总结并进行详细的分类如图4所示,并指出目前挑战和未来发展方向。

图片

图4: 大语言模型和知识图谱结合路线的细粒度分类

简言之,大模型+知识图谱的结合路线主要分为3类:

1)  基于知识图谱增强的大模型

a. 知识图谱在大模型预训练中的作用

b. 推理过程中如何利用知识图谱提升大模型性能

c. 通过知识图谱提高大模型可解释性

2)  基于大模型增强的知识图谱

a. 利用大模型改善知识图谱的嵌入表示

b. 基于大模型增强的知识图谱补全

c. 基于大模型增强的知识图谱的构建

d. 基于大模型增强的知识图谱文本生成

e. 基于大模型和知识图谱的高效问答系统

3)  协同增强: 大模型和知识图谱的融合

a. 协同知识表示的构建

b. 协同推理

二、  大模型+知识图谱的结合路线

1.   知识图谱增强大语言模型

大语言模型虽然能在大规模语料库中学习知识并在各种NLP任务中表现突出,但经常出现“幻觉”问题且缺乏可解释性。为了解决这些问题,有研究人员提出用知识图谱来增强大模型。

例如,在预训练阶段可以将知识图谱融入到大模型中,这样可以从知识图谱中学习知识;推理阶段也可将知识图谱融入到大模型中,通过从知识库中检索知识,可以显著提高大模型在特定领域的性能;同样也可利用知识图谱对事实的可解释性提高大模型的推理过程中的可解释性。表1总结了将知识图谱集成到大模型中的经典工作。下面,本文将具体从这三个方面进行的工作进行分类并解读。

图片

表1:基于知识图谱增强的大模型方法总结

Ⅰ.  知识图谱在大语言模型预训练中的作用

现有大模型大多依赖于大规模语料库的无监督训练,尽管这些模型在很多下游任务中性能优异,但它们通常缺乏与现实世界相关的实践知识。先前的工作中,将知识图谱整合到大模型预训练中可以分为三类:

(1)将知识图谱整合到训练目标中

这类研究重点是设计新颖的对知识敏感的训练目标。一个直观的方法是在预训练目标暴露更多的知识实体。例如,GLM利用知识图谱的结构去分配一个掩码概率。具体而言,能在一定跳数内到达的实体被认为是学习中最重要的实体,在预训练过程中它们被赋予了更高的掩码概率。此外,E-BERT进一步控制了token级别和实体级别训练损失之间的平衡。训练损失值被用来作为token和实体学习过程中的反映,动态地决定了它们各自在下一轮训练过程中的比例。SKEP也类似的将情感知识注入到大模型预训练中。

另一类研究利用了知识与输入文本之间的联系。如图5所示,ERNIE提出了一种新的单词-实体对齐目标作为预训练目标。它将文本中提到的句子和相应的实体都输入到大模型中,然后训练大模型预测文本token和知识图谱实体之间的对齐链接。同样,KALM通过合并实体嵌入来增强输入的token,除了token-only级别的训练目标外,还包含实体预测的预训练任务,该方法旨在提高大模型获取实体相关知识的能力。而KEPLER直接将知识图谱嵌入的训练目标和预训练的掩码token目标一起在基于Transformer的共享编码器中。Deterministic LLM侧重于预训练语言模型去捕捉确定的事实知识。它只将具有确定性实体的span进行掩码作为问题,并引入了额外的线索对比学习和线索分类目标。WKLM首次用其他相同类型的实体替换文本中的实体,然后将他们喂到大模型中。进一步对模型进行预训练来区分这些实体是否被替换。

图片

图5:通过文本-知识对齐损失将知识图谱的信息注入到大模型训练目标中,h表示大模型生成的隐藏表示。

(2)将知识图谱集成到大模型输入中

如图6所示,该类研究重点是将相关知识子图引入到大模型输入中。例如,给定一个知识图谱的三元组和相应的句子,ERNIE3.0将三元组表示为一个token序列并直接将他们与句子联系起来。它进一步随机屏蔽三元组中的关系token或者句子中的token,以便更好地将知识与文本表示结合起来。然而,这种直接的知识三元组链接起来的方法通过让句子中的token和知识子图的token进行交互会产生知识噪声(Knowledge Noise)问题,即过多考虑领域知识可能会导致语句语义出现错误。为解决这个问题,K-BERT首先将一个可见矩阵将知识三元组注入到句子中,其中只有知识实体可以访问知识三元组中的信息,而句子中的token只能在自注意力模块中看到彼此。为了进一步降低知识噪声,Colake提出了一种统一的词-知识图谱如图10所示,输入句子中的token形成了一个完整的连接的词图,此图中与知识实体对齐的token与其相邻接的实体相连。

图片

图6:使用图结构将知识图谱中的信息注入到LLM输入中

上述方法确实可以给大模型注入大量的知识,但它们大多关注流行的实体,忽略了低频和长尾实体。DkLLM改进了大模型对这些实体的表示,它提出了一种新的度量方法来判断长尾实体,然后用伪token嵌入替代文本中选中的实体作为大语言模型的新的输入。此外, Dict-BERT提出利用外部字典解决这个问题,它通过在输入文本的末尾附加字典中的定义来提高罕见词的表示质量,并训练语言模型局部对齐输入句子中的罕见词表示和字典中的定义,并区分输入文本和定义是否被正确映射。

(3)知识图谱的指令调优

比起向大语言模型中注入事实知识,知识图谱指令调优可以对LLM进行微调,有更好的理解知识图谱的结构并有效地按照用户指令完成复杂任务。知识图谱中的指令调优可以同时利用知识图谱中的事实知识和结构来创建指令调优数据集,在这些数据集上进行微调的LLM可以从知识图谱中提取事实知识和结构知识,增强了llm的推理能力。KPPLM首先设计了几个提示模板,将结构图转换为自然语言文本。然后,提出了两个自监督任务来微调llm,以进一步利用这些提示中的知识。OntoPrompt提出了一种本体增强的提示调优,可以将实体的知识放在llm的上下文中,这些知识在几个下游任务上进一步调优等等。

总而言之,知识图谱指令调优可以更好地利用知识图谱的知识来完成下游任务,但是这一过程需要重新训练模型,既耗时又需要大量资源。

Ⅱ.  推理过程中如何利用知识图谱提升大模型的性能

上述方法可以有效地将知识融合到LLM中。然而,现实世界的知识是会变化的,这些方法的局限性在于它们在不重新训练模型的情况下无法对合并的知识进行更新。因此,在推理过程中,它们可能不能很好地推广到未知的知识。因此,如何保持知识空间和文本空间的分离,并在推理的同时注入知识,一直是人们关注的问题。这些方法主要关注问答(QA)任务,因为QA要求模型捕获文本语义含义和最新的现实世界知识。推理过程中主要分为以下2个方向的工作。

(1)检索增强的知识融合

检索增强知识融合是在推理过程中向LLM注入知识的一种常用方法。关键思想是从一个大的语料库中检索相关知识,然后将检索到的知识融合到LLM中。如图7所示,RAG提出将非参数模块和参数模块结合起来处理外部知识。给定输入文本,RAG首先通过MIPS在非参数模块中搜索相关的知识图谱获得若干个文档。然后RAG将这些文档作为隐藏变量z处理,并将它们作为附加的上下文信息提供给由Seq2Seq LLM授权的输出生成器。研究表明,使用不同的检索文档作为不同生成步骤的条件比仅使用单个文档指导整个生成过程效果更好。实验结果表明,在开放域问答任务中,RAG优于其他纯参数基线模型和非纯参数基线模型。

图片

图7:检索外部知识来增强LLM的生成能力

RAG还可以生成比其他仅参数基线方法更具体、更多样化和更真实的文本。例如,Story-fragments通过增加一个额外的模块来确定显著的知识实体,并将它们融合到生成器中,从而进一步改进了体系结构,从而提高生成的长故事的质量。EMAT通过将外部知识编码到key-value存储器中,并利用快速最大内积搜索进行存储查询,进一步提高了系统的效率。REALM提出了一种新的知识检索器,帮助模型在预训练阶段从大型语料库中检索和关注文档,并成功提高了开放域问答的性能。KGLM使用当前上下文从知识图谱中选择事实来生成事实句。在外部知识图谱的帮助下,KGLM可以使用领域外的词或短语来描述事实。

(2)知识图谱提示工程

为了能在推理过程中更好的将知识图谱结构喂到LLM中,知识图谱提示工程旨在设计一个精心设计的prompt将结构化知识图谱转化为文本序列喂给LLM。这样,LLM可以更好地利用知识图谱的结构进行推理。Li等人采用预先定义的模板将每个三元组转换成一个短句子,LLM可以理解该句子并进行推理。Mindmap设计了一个知识图谱prompt,将图结构转换为思维导图,使LLM能够通过整合知识图谱中的事实和LLM的隐性知识来进行推理。ChatRule从知识图谱中采样了几个关系路径,这些路径被语言化并输入到LLM中。然后,LLM被提示生成可用于推理的有意义的逻辑规则。CoK提出了一种知识链提示,使用一组三元组序列来引导法学硕士的推理能力,从而得出最终答案。

知识图谱提示工程提供了一种简单的方法来协同LLM和知识图谱,通过使用知识图谱prompt,我们可以很容易地利用LLM的力量来执行基于知识图谱的推理,而无需重新训练模型。然而,prompt通常是手动设计的,这需要大量的人力。

小结:

基于知识图谱增强的LLM预训练通常用语义相关的现实世界知识来丰富大规模未标记语料库,这些方法可允许知识表示与对应的语言知识对齐,再从头开始利用这些知识训练LLM。当训练后的LLM用于下游知识密集型的任务时,它们应该表现出最佳性能。相比之下,基于知识图谱增强的LLM推理方法仅在推理阶段将知识喂给LLM,而底层的LLM在执行下游任务时没有经过训练无法充分利用这些知识,从而导致模型性能并不是最佳的。

然而,现实世界的知识是动态的,需要经常更新。尽管上述方法是有效的,基于知识图谱增强的LLM预训练方法在没有再训练的前提下无法进行知识更新。因此,该方法对最近或未见过的知识的泛化效果很差。但基于知识图谱增强的LLM推理方法可以通过更改推理时的输入来方便地维护知识更新。这些方法有助于提高LLM在新知识和新领域的性能。

总之,什么时候用这些方法取决于应用场景。如果想应用LLM来解决特定领域的对时间不敏感的知识(常识、推理知识等)可以考虑基于知识图谱增强的LLM预训练方法,否则可以在推理阶段使用基于KG增强的方法来处理频繁更新的开放域知识。

Ⅲ.  通过知识图谱提高大模型的可解释性

尽管LLM在许多NLP任务中取得了显著的成功,但它们仍然因缺乏可解释性。LLM可解释性是指对LLM内部工作原理和决策过程的理解和解释。这可以提高LLM的可信度,促进其在医疗诊断和法律判决等高风险场景中的应用。知识图谱在结构上表示知识,可以为推理结果提供良好的可解释性。

因此,研究人员试图利用知识图谱来提高LLM的可解释性,大致可以分为两类:用于语言模型探索的知识图谱和用于语言模型分析的知识图谱。

(1)用知识图谱进行LLM探索

LLM探索的目的是理解存储在LLM中的知识。LLM是在大规模语料库上训练的,通常被认为包含了大量的知识。然而,它以一种隐藏的方式存储知识,使得很难找出存储的知识。此外,LLM还存在幻觉问题,这会导致生成与事实相矛盾的陈述,这个问题严重影响LLM的可靠性。因此,有必要对LLM中存储的知识进行探索和验证。

LAMA是第一个使用知识图谱对LLM中的知识进行探测的工作,如图8所示,LAMA首先通过预定义的提示模板将知识图谱中的事实转换为完形语句,然后使用LLM对缺失的实体进行预测。预测结果用于评估存储在LLM中的知识。

图片

图8:利用知识图谱探索语言模型的一般框架

例如,我们试图探究LLM是否知道事实三元组(奥巴马,职业,总统)。我们首先把事实三组转换成一个填空题“奥巴马的职业是___。”然后,我们测试LLM是否可以正确预测对象“总统”。

然而LAMA忽略了一个事实是这个提示是不合适的。比如,提示为"奥巴马就职于____“可能比提示”奥巴马是一位____"更有利于预测缺失处。

因此LPAQA提出了一种于挖掘和释义的方法来自动生成高质量和多样化的提示,以便更准确地评估语言模型中包含的知识。与使用手动定义的提示模板不同,Autoprompt提出了一种基于梯度引导搜索来创建提示的自动化方法。

BioLAMA和MedLAMA不使用百科全书式和常识性知识图谱来探索一般知识,而是使用医学知识图谱来探索LLM中的医学知识。Alex等人研究了LLM保留不太流行的事实知识的能力。他们从维基数据知识图谱中选择不受欢迎的事实,这些事实的点击频率较低。然后将这些事实用于评估,结果表明LLM在这些知识方面表现不佳,并且缩放未能显著提高尾部事实知识的记忆。

(2)用知识图谱进行LLM分析

用知识图谱进行LLM分析旨在回答以下问题,例如“LLM如何生成结果?”,以及“LLM中的功能和结构如何运作?”。为了分析LLM的推理过程,如图9所示,KagNet和QA-GNN将LLM在每个推理步骤产生的结果以知识图谱为基础。

图片

图9:利用知识图谱进行语言模型分析的一般框架

这样,LLM的推理过程可以通过从知识图谱中提取的图结构来解释研究LLM如何正确生成结果。此外,Shaobo等人研究了LLM是如何生成正确结果的,他们采用了从知识图谱中提取的事实的因果启发分析,这种分析定量地测量了LLM生成结果所依赖的词语模式。结果表明,LLM更多的是由位置上接近的词而不是知识依赖的词来产生缺失的事实。因此,他们声称LLM因为不准确的依赖不足以记忆事实知识。

为了解释LLM的训练过程,Swamy等人预训练时采用语言模型生成知识图谱。LLM在训练期间获得的知识可以通过知识图谱中的事实明确地显示出来。为了探究隐性知识如何存储在LLM的参数中,Dai等人提出了知识神经元的概念。具体而言,识别的知识神经元的激活与知识表达高度相关。因此,他们通过抑制和增强知识神经元来探索每个神经元所代表的知识和事实。

2.   大语言模型增强知识图谱

知识图谱以结构化的方式表示知识而闻名,它们已经应用于许多下游任务,如问答、推荐和网络搜索。然而,传统的知识图谱往往是不完整的,现有的方法往往缺乏对文本信息的考虑。为了解决这些问题,最近的研究探索了将LLM集成到知识图谱中,以考虑文本信息并提高下游任务的性能。在本节中,我们将介绍最近关于LLM增强知识图谱的研究,我们将分别介绍将LLM集成到知识图谱嵌入、知识图谱补全、知识图谱构建、知识图谱到文本生成和知识图谱问答中的方法。代表性工作总结见表2所示。

图片

表2:基于LLM增强的知识图谱工作总结

Ⅰ. 利用大模型改善知识图谱的嵌入技术

知识图嵌入(KGE)旨在将每个实体和关系映射到一个低维向量(嵌入)空间中。这些嵌入包含知识图谱的语义和结构信息,可用于各种任务,如问答、推理和推荐。传统的知识图谱嵌入方法主要依靠知识图谱的结构信息来优化嵌入上定义的评分函数(如TransE和DisMult)。然而,由于结构连通性有限,这些方法在表示看不见的实体和长尾关系方面往往存在缺陷。

接下来,我们从LLM作为文本编码器、联合文本和知识图谱嵌入的LLM两个方向进行介绍。

(1)LLM作为文本编码器

如图10所示,Pretrain-KGE是一种代表性的方法,为了解决上述提出的问题,它采用BERT作为LLM的编码器,通过对实体和关系的文本描述进行编码来丰富知识图谱的表示,然后再喂到知识图谱嵌入模型中生成最终的嵌入。

图片

图10:LLM作为知识图谱嵌入(KGE)的文本编码器。

此外,KEPLER为知识嵌入和预训练语言模型表示提供了统一的模型处理。该模型不仅使用LLM有效的生成了文本增强的知识嵌入,还能讲事实知识无缝整合到LLM中。而Nayyeri等人使用LLM生成词级别、句子级别和文档级别的表示。他们通过四维超复数的二面体和四元组表示将上述表示与图的结构嵌入集成到一个统一的向量中表示。Huang等人将LLM与其他视觉和图形编码器结合,学习多模态知识图谱嵌入,提高了下游任务的性能等等。CoDEx提出了一种由LLM驱动的新的损失函数来指引知识图谱嵌入模型考虑文本信息的情况下测量三元组的可能性,这个损失函数与模型结构无关,可以与任何知识图谱嵌入模型结合使用。

(2)联合文本和知识图谱嵌入的LLM

此类方法不是用上文提到的KGE模型考虑图谱结构,而是直接使用LLM将图结构和文本信息同时纳入嵌入空间。如图11所示,KNN-KGE模型将实体和关系当作LLM中的特殊token,在训练过程中,它将每个三元组(h, r, t)和相应的文本描述转换为句子x,然后尾部的实体用MASK的token代替,将该句子输入到LLM中,然后该LLM对模型进行微调以预测被屏蔽的实体。同样,LMKE提出了一种对比学习的方法,以提高LLM生成的嵌入对KGE的学习。同时,为了更好的捕捉图结构,LambdaKG对1跳的相邻实体进行采样,并将它们的token与三元组连接起来作为输入LLM的句子。

图片

图11:LLM用于文本和知识图谱的联合嵌入

Ⅱ. 基于大模型增强的知识图谱补全

知识图谱补全任务KGC是指对给定知识图谱中缺失的事实进行推断的任务,传统方法主要集中在知识图谱的结构信息而没有考虑到扩展的文本信息。但是,最近集成LLM的方法使得KGC方法能够对文本或生成的事实进行编码以此获得更好的补全表现。这些方法可分为2个不同的类别:① LLM作为编码器(PaE) ② LLM作为生成器(PaG)。

(1)LLM作为编码器(PaE)

如图12中的a, b, c所示,它们首先使用仅含编码器的LLM来编码文本信息和知识图谱中的事实。然后,它们通过将编码表示喂到一个可能是简单的MLP或者传统知识图谱评分函数的预测模块(TransE、TransR等)中来预测三元组或者被遮住的实体的合理性。

图片

图12:使用LLM作为编码器(PaE)进行知识图谱补全的一般框架

a. 联合编码:由于只有编码器的LLM比如BERT擅长对文本序列进行编码,因此KG-BERT将一个三元组表示为文本序列,并使用LLM对其进行编码。最终CLS token的隐藏状态喂到一个分类器中去预测三元组的可能性。为了提高KG-BERT有效性,MTL-KGC提出了KGC框架的多任务学习,将额外的辅助任务纳入模型训练中,即预测和相关性排序。PKGC通过将三元组及其支持信息转换为具有预定义模板的自然语言句子来评估三元组的有效性,然后用LLM对这些句子进行处理即二分类。三元组的支持信息由头实体和尾实体的属性导出,例如如果三元组是(勒布朗詹姆斯, 运动队队员, 湖人队), 那么其支持信息被表示为“勒布朗詹姆斯:美国篮球运动员”。LASS观察到语言语义信息和图结构对知识图谱补全同样重要,为此提出联合学习语义嵌入和结构嵌入的方法,它将三元组的全部文本信息转发给LLM,并分别计算实体、关系对应LLM输出的平均池化。然后将这些信息传递给基于图的方法比如TransE来重构知识图谱。

b. MLM掩码语言模型:很多方法也没有对三元组的全部文本信息进行编码,而是引入了掩码语言模型MLM对知识图谱的文本进行编码,比如图12中的(b)所示。MEMKGC使用掩码实体模型分类机制来预测三元组的屏蔽实体,目的是最大化被掩码实体是正确实体的概率。此外,为了让模型能够学习看不到的实体,MEM-KGC模型集成多任务学习来对实体和基于实体文本描述的super-class进行预测。OpenWorld KGC扩展了MEM-KGC模型,通过管道框架解决了开放世界的知识图谱补全问题,它定义了2个顺序的基于MLM的模块:实体描述预测模块EDP——给定文本信息预测相应实体;不完整的三元组预测模块ITP——预测三元组缺失的尾实体的可行度。首先EDP对三元组进行编码,生成最终隐藏状态,然后作为头部实体的嵌入喂到ITP中以预测目标实体。

c. 分开编码:如图12(c)所示,这些方法将一个三元组划分为2个部分,然后对这两个部分分别用LLM编码,并将CLS的最终隐藏状态分别作为2个部分的编码,然后将这些表示输入到评分函数中预测三元组的可能性。StAR采用孪生神经网络文本编码器,将它们编码为单独的上下文表示。为了避免文本编码方法如KG-BERT的组合爆炸,它采用了一个评分模块,包含一个分类器和空间度量分别用来表示和结构学习,通过探索空间特征来增强结构化知识。SimKGC则用对比学习应用于编码中的表示;为了避免过拟合的文本信息,CSPromp-KG采用了参数高效的提示学习进行补全。而LP-BERT是一种结合了MLM编码和分离编码的混合补全方法,它包含预训练和微调两个阶段。预训练过程中,利用MLM机制对包含知识图谱补全数据的LLM进行预训练,微调时对这两部分进行编码并使用对比学习策略进行优化(类似于SimKGC)。

(2)LLM作为生成器(PaG)

最近一些工作也使用LLM作为知识图谱补全任务中的序列到序列(Seq2Seq)的生成器如图13所示。这些方法既包含Encoder-Decoder结构也包含Decoder-only结构的LLM。它接受一个查询三元组(h, r, ?)的输入文本序列,直接生成预测的尾实体。

图片

图13:LLM作为知识图谱补全的解码器的一般框架

GenKGC使用BART作为主干模型,受到GPT-3中使用的上下文学习方法的启发,它将相关样本连接起来学习正确的输出答案并提出了一种关系引导的证明技术,包括具有相同关系的三元组以促进模型的学习过程。此外,在生成过程中,提出了一种实体感知的分层解码方法来减小时间复杂度。KGT5则基于T5的小结构引入了一种新的知识图谱补全模型,它满足四个关键要求:可扩展、高质量、多功能、简单。而KG-S2S是一个综合性的框架,可以应用于各种KGC任务包括静态知识图谱补全、时序知识图谱补全和小样本知识图谱补全。它引入了一个额外的元素将三元组转换为一个四元组(h, r, t, m),其中m代表额外的条件元素。也就是说,虽然不同的补全任务有不同的条件,但是它们通常具有相似的文本格式,这也实现了不同任务之间的统一处理。该方法结合了实体描述、soft prompt、Seq2Seq Dropout等多种技术提升模型性能,此外它利用约束的解码来确保生成的实体是有效的。对于闭源LLM(ChatGPT等),AutoKG采用提示工程设计定制提示,如图14所示,这些提示包含了任务描述、示例和测试输入,引导LLM预测KG的尾实体。

图片

图14: 基于Prompt的PaG的知识图谱补全框架

小结:

LLM作为编码器(PaE)在编码表示的头部采用了额外的预测头,因此该框架更容易微调,因为我们只能优化预测头并冻结其余部分。此外,预测的输出容易确定并与现有的KGC函数集成用于不同的KGC任务。然而推理阶段,PAE需要计算知识图谱中的每一个候选对象的分数,计算代价昂贵。此外,它们不能推广到看不见的实体,而且需要LLM的表示输出,但很多先进的LLM如GPT-4等都是闭源的,无法获取表示输出。

而LLM作为生成器(PaG)不需要预测头,可以在不进行微调或获取输出表示的情况下使用。因此该框架适用于各种LLM,而且推理中它可以不需要对所有候选实体进行排序从而直接生成尾实体,也容易推广到看不见的实体。但是,PaG的挑战在于生成的实体可能是多种多样的,并且不存在于KGs中,而且由于自回归生成,单个推理的时间更长。

最后,如何设计一个强大的提示,将知识图谱输入LLM中仍然是一个未解决的问题。因此,虽然PaG在KGC任务中表现良好,但在选择合适的基于LLM的KGC框架时,必须对模型复杂性和计算效率之间进行权衡。

Ⅲ. 基于大模型增强的知识图谱的构建

知识图谱的构建涉及到在特定领域内创建知识的结构化表示,包括识别实体及其相互之间的关系。知识图谱的构建过程通常涉及多个阶段,包括1)实体发现,2)指代消解,3)关系提取。图15给出了在KG构建过程中的各个阶段应用LLM的总体框架。最近的方法是探索端到端的知识图谱构建,包括一步构建一个完整的知识图谱,或者直接从LLM中提取知识图谱。

图片

图15:基于LLM的知识图谱构建的总体框架

(1)实体发现:知图谱构建中的实体发现指的是从文本文档、网页、社交媒体等非结构化数据源中识别和提取实体,并将其整合到知识图谱中构建知识图谱的过程。

① 命名实体识别NER:

它涉及识别和标记文本数据中的命名实体及其位置和分类。命名实体包括人员、组织、位置和其他类型的实体。最先进的NER方法通常使用LLM来利用他们的上下文理解和语言知识来进行准确的实体识别和分类。根据识别的NER跨度类型,NER子任务分为Flat NER、Nested NER和Discontinuous NER。1)Flat NER是从输入文本中识别不重叠的命名实体。它通常被概念化为一个序列标记问题,其中文本中的每个标记根据其在序列中的位置被分配一个唯一的标签 2)Nested NER考虑更复杂的情形,允许一个token属于多个实体。基于跨度的方法是Nested NER的一个流行的分支方法,它包括了枚举所有候选跨度并将它们分类为实体类型(非实体类型)。基于解析的方法揭示了Nested NER和选区解析任务(预测嵌套和非重叠的跨度)之间的相似性,并提出将选取的解析集成到Nested NER中。3)Discontinuous NER标识文本中可能不连续的命名实体。为了解决这些挑战,有研究人员使用LLM的输出来识别实体片段判断是否重叠或连续。此外,GnerativeNER使用带有指针机制的序列到序列的LLM来生成实体序列,该实体序列能够解决这三种类型的NER子任务。

② 实体分类(ET):

 旨在为上下文中提到的给定实体提供细粒度和超粒度类型信息。这些方法通常利用LLM对提及、上下文和类型进行编码。LDET采用预训练的ELMo嵌入进行单词表示,并采用LSTM作为句子和提及的编码器。BOX4Types意识到类型依赖的重要性,并使用BERT来表示隐藏向量和超矩形空间中的每种类型。LRN考虑了标签之间的外在和内在依赖关系。它用BERT对上下文和实体进行编码,并利用这些输出嵌入进行演绎和归纳推理。MLMET使用预定义的模式来构建BERT MLM的输入样本,并使用[MASK]来预测提及的上下文相关的上位词,这些上位词可以被视为类型标签。PL和DFET利用了实体输入的提示学习,LITE则将实体分类表示为文本推理,并使用RoBERTa-large-MNLI作为主干网络。

③ 实体链接(EL):

也是所谓的实体消歧,涉及将文本中出现的实体提及和知识图谱中的相应实体联系起来。有工作采用了基于BERT的端到端EL系统,可以联合发现、链接实体。ELQ采用了快速双编码器架构共同执行提及的检测并为下游问答系统连接通道。此外,GENRE将EL定义为序列到序列问题,自回归地生成一个输入标记的版本。mGENRE将其扩展到多语言,ReFinED利用LLM编码器处理细粒度实体类型和实体描述,提出了一种高效的zero-shot的EL方法。

(2)指代消解:指从文本中找到指向同一实体或事件的所有表示。

① 文档内指代消解:

所有提及都在同一个文档中。Mandar等通过用BERT替换之前的LSTM编码器来初始化基于LLM的指代消解。在这项工作之后,引入了SpanBERT,它使用基于跨度的掩码语言模型(MLM)在BERT架构上进行预训练。受这些工作的启发,Tuan Manh等人通过将SpanBERT编码器纳入非LLM方法;CorefBERT利用提及引用预测(MRP)任务,该任务屏蔽一个或多个提及,并要求模型预测被屏蔽提及的相应引用;CorefQA将指代消解制定为问答任务,其中为每个候选提及生成上下文查询,并使用查询从文档中提取共同引用范围;Tuan Manh等使用SpanBERT编码器引入了一种门机制和一种噪声训练方法,从事件提及中提取信息。

为了减少基于LLM的大型NER模型的巨大内存占用,Yuval等人和Raghuveer等人分别提出了开始到结束和近似模型,两者都利用双线性函数来计算提及和先前的分数,减少了对跨度级表示的依赖。

② 跨文档指代消解:

指的是可能跨多个文档引用相同的实体或者事件。CDML提出了一种跨文档语言建模方法,该方法在连接的相关文档上预训练Longformer编码器,并使用MLP进行二元分类,以确定一对提及是否共指;CrossCR使用端到端模型进行跨文档的共同指代解决;CR- RL提出了一种基于actor-critic深度强化学习的跨文档指代消解方法。

(3)关系抽取(RE):关系抽取设计识别自然语言中提到的实体之间的语义关系,根据文本的范围,其方法主要有2种:句子级别的关系抽取和文档级别的关系抽取。

① 句子级别关系抽取:

它侧重于识别单个句子中实体之间的关系。BERT-MTB通过执行Matching-the-blanks任务并结合为关系提取设计的目标相结合来学习基于BERT的关系表示。Curriculum-RE采用课程学习在训练过程中逐步提高数据难度;RECENT引入SpanBERT并利用实体类型限制减少有噪声的候选关系类型。Jiewen等人对RECENT进行扩展,将实体信息和标签信息结合到句子级的嵌入中,使嵌入能够感知到实体标签。

② 文档级别的关系抽取(DocRE):

旨在提取文档中多个句子中实体之间的关系。相关的工作有:用LLM替代BiLSTM主干网络;使用LLM对不同层次的实体表示进行编码和聚合;GLRE使用LLM根据实体全局和本地表示以及上下文关系表示对文档信息进行编码;LLM编码器中引入U-Net以捕获实体之间的本地和全局依赖关系;ATLPT关注多标签问题,使用分类器的自适应阈值和LLM局部上下文池化方法实现等等。

(4)端到端的知识图谱构建:

目前,研究人员正在探索使用LLM进行端到端KG构建。Kumar等人提出了一种从原始文本构建KG的统一方法,该方法包含两个LLM驱动的组件。他们首先在命名实体识别任务上对LLM进行微调,使其能够识别原始文本中的实体。然后,他们提出了另一种“2-model BERT”来解决关系提取任务,该任务包含两个基于BERT的分类器。第一个分类器学习关系类别,而第二个二元分类器学习两个实体之间关系的方向。然后使用预测的三元组和关系来构造KG。Guo等提出了一种基于BERT的端到端知识提取模型,该模型可用于从文言文文本中构建知识库。Grapher提出了一种新的端到端多级系统。它首先利用LLM生成KG实体,然后是一个简单的关系构建头,从而能够从文本描述高效地构建KG。PiVE提出了一个带有迭代验证框架的提示,该框架利用较小的LLM(如T5)来纠正较大的LLM(如ChatGPT)生成的KG中的错误。为了进一步探索高级的LLM,AutoKG为不同的KG构建任务比如实体分类、实体链接和关系抽取等设计了几种Prompt,然后使用ChatGPT和GPT-4进行构建。

(5)从大模型中提取知识图谱:

LLM已被证明可以隐式编码海量知识。如图16所示,一些研究旨在从LLM中提取知识来构建知识图谱。COMET提出了一种常识转换模型,该模型通过使用现有元组作为训练知识的种子集来构建常识性KG。利用这个种子集,LLM学习将其学习到的表示用于知识生成,并产生高质量的新元组。

实验结果表明,来自LLM的隐性知识被转移到常识知识库中生成显式知识。BertNet提出了一个由LLM支持的自动构建知识库的新框架。它只需要最小的关系定义作为输入,并自动生成各种提示,并在给定的LLM中执行有效的知识搜索以获得一致的输出。构建的KG具有竞争性、多样性和新颖性,具有更丰富的新关系和复杂关系,这是以前的方法无法提取的。

West等提出了一种从LLM中提取符号知识的符号知识蒸馏框架。他们首先通过从像GPT-3这样的大型LLM中提炼出常识性的事实来调整一个小型的LLM学生。然后,利用学生LLM来生成常识性KG。

图片

图16:从LLM中蒸馏知识图谱的一般框架

Ⅳ. 基于大模型增强的知识图谱文本生成

Knowledge -Graph-to-Text (KG-to-text)生成的目标是准确一致地生成描述输入知识图谱信息的高质量文本。KG-to-text生成将知识图谱和文本连接起来,显著提高了KG在更现实的NLG场景中的适用性,包括讲故事和基于知识的对话。然而,收集大量的图文并行数据具有挑战性和成本,导致训练不足和生成质量差。因此,许多研究工作倾向于:1)利用LLM的知识 2)构建大规模弱监督的KG-text语料库来解决这个问题。

(1)利用大模型中的知识:

作为开创性的研究,Ribeiro等人直接对各种LLM进行微调,包括BART和T5,目的是为了该任务而转移知识。如图17所示,仅是简单地将输入图作为一种线性遍历并发现这种幼稚的方法成功优于现有最先进的KG-to-text系统。他们也发现了继续预训练可以进一步提高模型性能,但这些方法无法显示地将丰富的图语义融入到KG中。为了利用KG结构信息增强LLM,JointGT提出将知识图谱的结构表示保存注入到Seq2Seq大语言模型中。

Li等人关注小样本情景,采用新的BFS宽度优先搜索策略来更好地遍历输入的KG结构,并将增强的线性化图表示提供给LLM获得高质量的预测输出,然后基于GCN图卷积神经网络和LLM的KG对齐实体表示。

与上述不同的是KGBART保留了KG结构,并利用图的注意力区聚合子图谱中的丰富的概念语义信息,增强了模型在未见过的概念上的泛化能力。

(2)利用大模型构建大规模知识图谱-文本对齐的语料库

尽管LLM已经取得了显著的成功,但它们无监督预训练目标并不一定与知识图谱-文本生成的任务很好的对齐。为此,有研究人员开发大规模知识图谱-文本对齐的语料库。为确保KG和文本之间的连接,有研究只提取有2个维基百科链接的句子,然后使用这些链接中的实体在维基百科中查询它们周围的邻居并计算这些邻居与原始句子之间的词汇重叠,最后只选择高度重叠的对等等。

Ⅴ. 基于大模型和知识图谱的高效问答系统

知识图问答(Knowledge graph question answer, KGQA)旨在基于存储在知识图中的结构化事实来寻找自然语言问题的答案。检索相关事实,并将KG的推理优势扩展到QA中是KGQA研究中不可避免的挑战。因此,最近的研究采用LLM来弥合自然语言问题与结构化知识图谱之间的差距。在KGQA中应用LLM的一般框架如图17所示,其中LLM可以用作:1)实体/关系提取器 2)答案推理器。

图片

图17:LLM应用于KGQA知识图谱问答的一般框架

(1)实体/关系提取器

实体/关系提取器的目的是识别自然语言问题中提到的实体和关系,并在知识库中检索相关事实。考虑到语言理解的熟练程度,LLM可以用在此处。Lukovnikov等人首先利用LLM作为关系预测的分类器,与浅层神经网络相比,其性能有了显著提高。Nan等人引入了两个基于LLM的KGQA框架,它们采用LLM来检测提到的实体和关系。然后,他们使用提取的实体-关系对在KG中查询答案。QA-GNN使用LLM对问题和候选答案对进行编码,用于估计相关的KG实体的重要性。检索到的实体形成子图,其中由图神经网络进行答案推理。此外,Luo等人使用LLM计算关系和问题之间的相似性来检索相关事实。Zhang等人提出了一种基于LLM的路径检索器,逐跳检索问题相关的关系并构建多条路径,计算概率。得到的关系和路径可用来作为上下文知识提高答案推理时候的表现。

(2)答案推理器

答案推理器旨在对检索到的事实进行推理并生成答案。LLM可以作为答案推理器直接生成答案,例如上图17所示,DEKCOR模型将检索到的事实与问题以及候选答案链接在一起输入到LLM中,以预测答案分数。DRLK提出了一个动态分层推理器来捕获QA上下文与答案之间的交互,用于答案预测。

Yan等人提出了一个基于LLM的KGQA框架,由2个阶段组成:一是从KG中检索相关事实,二是根据检索到的事实生成答案。

为了更好的引导LLM通过KG进行推理,OreoLM提出了一个知识交互层插入到LLM层之间,使其与KG推理模块进行交互,在推理模块中发现不同的推理路径,然后推理模块在这些路径上进行推理生成答案。GreaseLM则融合了LLM和图神经网络的表示,对KG事实和语言上下文进行了有效的推理。UniKGQ将事实检索和推理统一到一个统一的框架中。

StructGPT则采用自定义接口,允许大语言模型如ChatGPT等直接在KG上进行推理,执行多步问答。

3.   协同增强:大模型与知识图谱的融合

近年来,LLM和KG的协同作用越来越受到人们的关注,它们结合了各自的优点,在各种下游应用中相互提高性能。例如,LLM可用于理解自然语言,而KG则被视为知识库,提供事实性知识。二者的相互统一可以产生一个强大的知识表示和推理模型。

在本节中,我们将从两个角度讨论最先进的协同LLM和KG的融合方法: 1)协同知识表示 2)协同推理。代表性工作总结见表3。

图片

表3:LLM和KG协同增强的代表性工作总结

(1)协同知识表示的构建

文本语料库中具备隐形的、非结构化的知识,而知识图谱中的知识是显示的结构化的。协同表示的目的是设计一个协同模型来更好理解来自两个来源的知识,使其对下游任务有更好的表现。

为了联合表示知识,研究人员通过引入额外的KG融合模块提出了协同模型,这些模块与LLM共同训练。如图18所示,ERNIE提出了一种文本-知识双编码器架构,其中T -编码器首先对输入句子进行编码,然后K -编码器处理知识图谱,并将其与来自T-编码器的文本表示融合。BERT-MK采用了类似的双编码器架构,但它在LLM预训练期间在知识编码器组件中引入了相邻实体的附加信息。然而,KG中的一些相邻实体可能与输入文本不相关,从而导致额外的冗余和噪声。CokeBERT专注解决这个问题,并提出了一个基于GNN的模块,使用输入文本过滤掉不相关的KG实体。JAKET提出将实体信息融合在大型语言模型的中间。

KEPLER提出了知识嵌入和预训练语言表示的统一模型。在KEPLER中,他们用LLM对文本实体描述进行编码,然后共同优化知识嵌入和语言建模目标。JointGT提出了一个图-文本联合表示学习模型,该模型提出了三个预训练任务来对齐图和文本的表示。DRAGON提出了一种自监督方法来预训练来自文本和KG的联合语言知识基础模型。它将文本段和相关KG子图作为输入,并双向融合两种模式的信息。然后,DRAGON利用两个自监督推理任务,即掩模语言建模和KG链路预测来优化模型参数。HKLM引入了一个统一的LLM,它包含了KG来学习特定领域知识的表示。

图片

图18:通过额外的KG融合模块协同知识表示

(2)协同推理

为了更好地利用来自文本语料库和知识图谱的知识,协同推理旨在设计一个能够有效地与LLM和KGs进行推理的协同模型。

① 大模型-知识图谱融合推理

LLM-KG融合推理利用两个分开的LLM和KG编码器来处理文本和相关的KG输入。这两个编码器同样重要,共同融合了两个来源的知识进行推理。为了改善文本和知识之间的交互,KagNet提出首先对输入的KG进行编码,然后对输入的文本表示进行增强。MHGRN使用输入文本的最终LLM输出来指导KG上的推理过程,但两者都只设计了文本和KG之间的单向交互。

为了解决这一问题,QA-GNN提出使用基于GNN的模型通过消息传递对输入上下文和KG信息进行联合推理。具体来说,QA-GNN通过池化操作将输入的文本信息表示为一个特殊节点,并将该节点与KG中的其他实体连接起来。然而,文本输入只集中到一个单一的密集向量中,限制了信息融合的性能。

JointLK随后提出了一个框架,通过LM-to-KG和KG-to- LM双向注意机制,在文本输入中的任何token和任何KG实体之间进行细粒度交互。如图19所示,在所有文本标记和KG实体上计算两两点积分数,分别计算双向注意分数。此外,在每个jointLK层,KGs也会根据注意得分动态修剪,以允许后续层关注更重要的子图结构。

尽管是有效的,但在JointLK中,输入文本和KG之间的融合过程仍然使用最终的LLM输出作为输入文本表示。GreaseLM在LLM的每一层的输入文本token和KG实体之间设计了深度和丰富的交互。其架构和融合方法之前提到的ERNIE非常相似,不同之处在于GreaseLM不使用纯文本T-编码器来处理输入文本。

图片

图19:LLM-KG融合推理框架

② 大模型作为代理推理

除了使用两个编码器来融合知识,LLM也可以被视为代理,与KGs交互进行推理,如图20所示。KD-CoT迭代地从KGs中检索事实,并产生可靠的推理过程,指导LLM生成答案。KSL教LLM在KGs上搜索以检索相关事实,然后生成答案。StructGPT设计了几个API接口,允许LLM访问结构数据并通过遍历KGs来执行推理。Think-on-graph提供了一个灵活的即插即用框架,LLM代理在KGs上迭代地执行束搜索以挖掘推理路径并生成答案。

为了增强智能体的能力,AgentTuning提出了几个指令调优数据集来引导LLM智能体对KG进行推理。

图片

图20:使用LLM作为Agent对知识图谱进行推理

小结:

LLM-KG融合推理将LLM编码器和KG编码器结合起来,以统一的方式表示知识,然后使用协同推理模块对结果进行联合推理。该框架允许不同的编码器和推理模块,这些模块是端到端的训练,以有效地利用LLM和KG的知识和推理能力。

然而,这些额外的模块可能会引入额外的参数和计算成本,同时缺乏可解释性。LLM作为智能体来帮助知识图谱推理为KG推理提供了一个灵活的框架,无需额外的训练成本,可以推广到不同的LLM和KG,同时推理过程具有可解释性,可以用来解释结果。然而,为LLM智能体定义行动和策略也是具有挑战性的。LLM和KGs的协同作用仍然是一个正在进行的研究课题,未来可能会有更强大的框架。

三、未来方向与挑战

1.   技术突破的潜力

随着技术不断更迭发展,我们相信LLM+KG的强强联手可以掀起下一轮的发展浪潮,为AI行业的研究人员们提供无限可能。要想使AIGC能够更广泛、更可靠地应用到下游任务,取得大众广泛的信任,必须要对生成的内容和形式进行检测和评估。前文介绍了一些工作已将知识图谱通过预训练或增强推理的方式获得更可靠的大模型,但这些方法既不鲁棒,也没有强大的可扩展性应对规模越来越大的语言模型。未来一段时间内,幻觉仍会继续存在且无法消除。因此,如何利用知识图谱这一可靠的知识库来验证LLM的生成,进一步对两者进行结合将是研究攻克的重点。

而对于知识图谱而言,当前通常依赖于文本和图形结构来构建、处理。然而现实世界的知识图谱往往是来自于不同模态的数据构建,比如音频、视频、图片等。为此,如何有效地在知识图谱中利用多种模态的表征也是未来知识图谱研究方向的重点。其中一种可能的解决方案是开发一个能够跨模态的准确的编码模式和对齐实体的方法。而最近多模态大模型的发展也让人对给更加智能的大模型有了更大的期望。但是,多模态大模型和知识图谱结构之间的差距仍然是该领域的关键挑战,需要进一步的研究和发展。

此外,在相关的训练数据方面,目前二者结合的数据集全部为英文语料库,缺少中文语料库。因此,在数据量、内容多样性和质量方面,我国开源数据集仍有进一步的提升空间。

2. 实际应用的扩展

在实际应用中,知识图谱+大模型的范式将会在推荐系统、智慧城市、金融、智慧医疗等复杂系统领域有着更大的前景。随着知识图谱和大模型的规模逐步增大,对于现实世界知识拟合能力变强的同时也存在着训练成本变大,融合困难等问题。为此,如何能够在不牺牲两者性能的前提下,进一步降低模型运行成本、优化模型框架和运算、实现大模型行为的动态追踪等方式将会为普通用户和应用人员带来更好的使用体验,从而高效地拓展下游应用行业、完成各类应用任务。

四、  参考文献

1.  刘学博,户保田,陈科海,等.大模型关键技术与未来发展方向——从ChatGPT谈起[J].中国科学基金,2023,37(05):758-766.DOI:10.16262/j.cnki.1000-8217.20231026.004.

2.Yang J, Jin H, Tang R, et al. Harnessing the power of llms in practice: A survey on chatgpt and beyond[J]. ACM Transactions on Knowledge Discovery from Data, 2024, 18(6): 1-32.

3.Pan S, Luo L, Wang Y, et al. Unifying large language models and knowledge graphs: A roadmap[J]. IEEE Transactions on Knowledge and Data Engineering, 2024.

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值