技术动态 | 大语言模型增强的知识表示学习

图片

摘要

知识表示学习通过将知识事实映射到向量空间,实现将知识图谱中的符号化知识应用于下游任务。尽管在刻画知识图谱结构信息方面表现出较好效果,但知识图谱的稀疏性依然制约其性能。随着基于 Transformer 架构的大语言模型兴起,为利用文本信息缓解知识图谱中信息稀缺问题、增强知识表示学习能力提供新机遇。利用大语言模型增强的知识表示学习方法主要包括三种策略:基于编码器的方法,借助详细上下文信息进行表征;基于编码-解码器的方法,采用统一序列到序列模型实现全面编解码;基于解码器的方法,充分利用大规模语料中的丰富知识。这些方法显著提升知识表示学习在应对各类下游任务时的有效性与泛化能力。同时,本文全面综述此类方法在知识表示学习下游任务的性能表现,并指出这一领域不断涌现的研究方向。

引言

知识图谱三元组是一种高效的结构化知识表示形式,由实体、关系和对象构成,其中对象既可以是另一实体,也可以是字面量。这种结构化事实在各类下游任务中发挥关键作用,例如链接预测(如预测“爱因斯坦”与“物理学”之间存在“研究领域”这一关系)、三元组分类(如验证“巴黎是法国首都”的真实性)以及关系分类(如将“创作”归为连接“罗琳”与“哈利·波特”的关系)。为更好地利用知识图谱中蕴含的符号知识推动下游任务,研究者们提出多种知识表示学习方法。其中,TransE、RESCAL 和 R-GCN 等代表性方法主要致力于将实体、关系等信息嵌入低维向量空间。

尽管这些方法在刻画知识图谱结构信息方面表现出色,但它们受到知识图谱稀疏性问题的制约。具体而言,部分知识表示学习模型在训练时保留知识图谱固有的结构特征,偏向于关注高关联实体。研究表明,知识图谱中实体度数大致服从幂律分布,在长尾部分聚集大量连接较少、不受关注的实体。因而,信息稀缺性使得这些方法在处理长尾实体时性能往往不够理想,总体上影响低度实体的有效表示,构成当前亟待解决的挑战。

为应对此类挑战,一种颇具前景的解决方案是利用大语言模型增强知识表示学习方法。基于 Transformer 架构构建的大语言模型凭借其卓越表现,近年来在自然语言处理领域获得广泛关注。通过在海量文本语料上的预训练,这些模型展现出深刻内容理解能力和丰富现实世界知识,能够借助诸如实体描述等文本信息缓解知识图谱中的信息稀缺问题,从而为实现更优知识表示提供新机遇。

近年来,利用大语言模型增强知识表示学习方法的潜力日益受到学术界与产业界的重视。随着语言模型的发展,其参数规模不断增大,现实世界知识愈加丰富,理解能力由优秀迈向卓越,输出也逐步由针对特定任务转向更加通用。这一演进历程可通过基于编码器、编码-解码器以及解码器三种 Transformer 架构的发展得到清晰体现。基于不同架构,利用大语言模型增强知识表示学习方法可划分为三类:在基于编码器的方法中,充分利用文本上下文信息捕捉详实的语境特征实现知识表示;在编码-解码器方法中,则采用序列转换模型,通过高效编码和解码直观、简洁地满足各项需求;在解码器方法中,则充分挖掘海量语料中蕴含的丰富知识以服务下游任务。

目前,少有综述工作系统探讨利用大语言模型增强知识表示学习的方法。就知识表示学习而言,Ge 等人全面回顾距离型与语义匹配型两大方法,鲜少提及大语言模型的增强问题;Biswas 等人综述了在语义、多模态、时序和多语言等特性方面改进知识表示学习的进展,较少涉及大语言模型赋能;Cao 等人从代数、几何及解析等数学空间角度对知识表示学习模型进行分类与分析,未囊括大语言模型增强问题;与此同时,Pan 等人主要从通用框架、知识图谱增强大语言模型、大语言模型赋能知识图谱及二者协同作用的角度探讨两者整合,专门针对大语言模型增强知识表示学习的内容所占比例较少。

本文首次对利用大语言模型增强知识表示学习的方法进行详细分类,系统综述下游任务的研究进展,并指明这一快速发展领域中的新兴方向。

01

传统知识表示学习方法

在大语言模型出现之前,知识表示学习方法主要聚焦于知识图谱的结构信息建模,根据评分函数衡量三元组合理性的指标,这些方法可分为两类:依赖距离度量的平移模型和基于语义匹配的模型。

平移模型

在平移模型中,评分函数通过计算两个实体之间的距离评价事实的可靠性。最具代表性的模型是平移系列模型。Bordes 等人受平移不变性原理启发,提出 TransE 模型,该模型将知识图谱中的实体和关系均用向量表示,并将实体之间的关系建模为平移向量,假设有效三元组(头实体、关系、尾实体)的向量应满足头实体向量加上关系向量近似等于尾实体向量。评分函数基于 L1 范数或 L2 范数进行定义,其中 L1 范数指的是向量各分量差值绝对值的总和(即曼哈顿距离),而 L2 范数指的是向量各分量差值平方和的平方根(即欧几里得距离);通过这种度量方式,可确保有效三元组获得较低得分。

由于 TransE 仅能处理一对一关系,其扩展模型陆续被提出以应对一对多、多对一以及多对多等关系问题。例如,Wang 等人提出的 TransH 模型将每个关系建模为一个超平面;TransR 模型则引入了关系特定的空间;而 TransD 模型为每个实体和关系构建了动态投影矩阵,从而同时考虑实体和关系的多样性。

语义匹配模型

与平移模型不同,语义匹配模型通过嵌入向量空间中实体和关系所蕴含的底层语义相似性来衡量事实的可信度。张量分解是获得低维向量表示的一项关键技术,其中典型代表包括基于三维张量分解的 RESCAL 模型;另一模型 DistMult 则采用神经张量学习知识图谱中实体和关系的表示,并为简化模型将关系矩阵限定为对角矩阵,这也意味着它只能处理对称关系。

随后,由于神经网络具有大量参数和较强的表达能力,越来越多的研究者开始在知识表示学习中探索神经网络的应用。ConvE 模型作为二维卷积神经网络的代表之一应运而生,其特点在于参数较少且计算高效。在该模型中,通过将头实体和尾实体的嵌入向量堆叠成二维矩阵,借助卷积操作提取其中蕴含的实体关系信息。

此外,R-GCN 模型专注于处理多关系密集的数据,为不同类型的关系赋予不同的权重,但这会导致参数数量急剧增加。为缓解此问题,R-GCN 采用了基函数分解与块对角分解两种正则化技术。SACN 模型由编码器加权图卷积网络和解码器卷积平移模型两部分组成,其中编码器通过为各关系分配不同权重,有效地将多关系图转化为多个单关系图,每个单关系图各具优势与不足。

然而,上述传统知识表示学习方法均侧重于保留知识图谱固有的结构信息,对于长尾实体的有效表示存在不足,仅依赖知识图谱内的结构信息偏向于结构数据丰富的实体。因此,这类方法难以充分利用知识图谱中所蕴含的文本信息,也未能将实体及关系的具体内容纳入其表示中。

02

大模型增强的知识表示学习方法

为解决传统知识表示学习方法存在的局限性,大语言模型通过突破单纯依赖结构信息的限制,显著推动知识表示学习的发展。这些模型利用注意力机制充分挖掘文本信息,从而构建出能够更准确捕捉知识图谱中实体与关系细微差别的上下文敏感表示。本节主要讨论利用大语言模型增强知识表示学习的方法,分为三大类:基于编码器的方法、基于编码-解码器的方法以及基于解码器的方法。

表1 大语言模型增强知识表示学习方法总览

表1概述了多种大语言模型增强知识表示学习方法,从年份、模型名称、类型、基础模型以及开源方面进行全面总结。每种方法在对三元组或相关信息的编码与处理上均有独到之处,以满足知识表示学习在不同任务和场景下的需求。基于编码器的方法中,三元组表示方法将整个三元组作为一个整体进行编码,能够提供整体表达,在处理未见三元组时存在不足;基于平移的表示方法则将头实体与关系组合进行编码,有助于增强推理能力,表达能力略显欠缺;独立表示方法则分别对头实体、关系和尾实体进行编码,支持模块化和零样本学习,缺乏成分间的整合。基于编码-解码器的方法中,结构化表示方法通过三元组序列高效表达结构信息;文本微调方法通过聚焦文本三元组简化适应过程,受制于模型本身的生成能力。基于解码器的方法中,描述生成方法通过提示在低资源场景下提升表示效果,高度依赖提示质量;提示工程充分利用大语言模型的预训练知识,在计算成本上较高;结构微调方法将结构化嵌入和文本嵌入相结合,实现了二者的平衡,需要复杂的整合策略。

基于编码器的方法

基于编码器的方法主要采用类似 BERT 和 RoBERTa 的编码器,充分利用实体描述等丰富的文本信息来增强知识表示学习。这些方法在对知识图谱三元组的编码方式上有所不同。在三元组表示方法中,头实体、关系和尾实体作为一个整体进行编码;而在基于平移的表示方法中,则将头实体和关系组合编码,同时对尾实体进行独立编码,并通过向量空间距离进行优化;独立表示方法则分别处理头实体、关系和尾实体,以实现独立编码。

(1)三元组表示方法

三元组表示方法将整个知识图谱三元组作为一个整体进行表示,充分利用头实体、关系及尾实体融合的语义和关系信息。这种整体表示不仅能提升下游任务性能,同时通过充分利用丰富的语言模式捕捉实体的上下文信息。图 1 展示了典型模型KG-BERT的三元组表示方法。

图1 三元组表示方法概览

KG-BERT 将三元组视作文本序列,并对预训练 BERT 模型进行微调,以预测给定三元组的合理性。该模型的输入为头实体描述、关系描述及尾实体描述:

模型计算出唯一 [CLS] 标记的最终隐藏向量,并将其作为整体序列的表示。随后,三元组的合理性得分按下式计算:

KG-BERT 即使在三元组不完整或遭受扰动的情况下,也能突出语义细微差别和关系完整性。基于交叉熵的损失函数通过有效区分噪声负样本与有效三元组,实现了鲁棒的学习过程:

负样本通过对正样本中的头实体或尾实体进行扰动生成,此方法能够模拟现实中的不确定情况,从而增强训练过程对复杂情形的鲁棒性。

MTL-KGC 采用多任务学习框架提升知识图谱补全性能,融合了关系预测和相关性排序等附加任务,通过学习更多关系属性和有效区分词汇相似的候选项,显著超越 KG-BERT 等模型。

K-BERT 则直接将知识图谱中的结构化领域知识引入预训练过程中。该模型在保留原始 BERT 架构的前提下,加入了将相关三元组注入训练样本的机制,从而使语言模型获得丰富的领域特定信息。

MLMLM 提出一种新颖的链接预测方法,利用平均似然掩码语言模型直接生成潜在实体。该方法借助预训练掩码语言模型中蕴含的知识,提升了知识图谱的可解释性和扩展性。

PKGC 是一种基于预训练语言模型的知识图谱补全模型,通过提示工程提升知识利用率。该模型将知识三元组转换为自然语言提示,从而使预训练语言模型中的隐含知识得到充分应用。

CSProm-KG 在知识图谱补全过程中同时融合结构信息与文本信息,采用根据知识图谱结构调整输入的条件软提示,使预训练语言模型能高效利用两种信息。

(2)基于平移的表示方法

基于平移的表示方法主要聚焦于对头实体与关系进行编码,而对尾实体则单独处理。该技术依赖于优化向量空间中各实体间的距离,从而实现更精准的知识表示和推理。图 2 展示采用平移编码的典型模型 StAR。

图2 基于平移的表示方法概览

该模型将每个三元组划分为两个不对称部分:一部分为头实体与关系的组合,另一部分仅包含尾实体。StAR 模型采用孪生网络式文本编码器将这两部分转换为上下文相关表示。平移函数定义如下:

三元组(h, r, t)的合理性得分通过确定性分类器与空间度量相结合的方式计算:

该模型采用三元组分类目标和对比损失共同训练:

总体训练损失为两项损失的加权和:

SimKGC 采用双编码器架构提升知识图谱补全中对比学习的效率。该方法融合批内、预批及自负样本三种负采样策略,通过扩大负样本集合和使用新颖的信息对比损失函数,提高了训练效果。

LP-BERT 采用多任务预训练策略,通过预测实体间的关系来增强知识图谱补全性能。该方法整合掩码语言建模、实体和关系建模任务,显著提升了链接预测效果,并利用大规模数据中上下文相关的实体与关系信息,有效处理未见实体与关系问题。

(3)独立表示方法

独立表示方法对三元组中的各个成分——头实体、关系和尾实体——进行独立编码,从而实现灵活且模块化的表示,满足特定知识图谱应用的需求。其显著优势在于能够强化知识图谱中的结构信息,提供零样本学习能力。图 3 展示典型独立表示模型 KEPLER 的架构。

图3 独立表示方法概览

KEPLER 利用实体的文本描述生成嵌入,从而降低对训练样本频次的依赖。该方法保证即使低频实体也能借助描述获得高质量表示,缓解因数据分布不平衡导致的嵌入质量下降问题:

KEPLER 的知识嵌入目标采用负采样方式进行优化:

该机制确保嵌入基于描述性语义生成,而非简单依赖出现频率,从而避免频繁实体被过度表示、稀有实体表示不足的风险。评分函数定义为:

此处范数取值为 1。负采样策略为固定头实体并随机抽取尾实体,或反之。

BERT-ResNet 模型通过将 BERT 与深层残差网络相结合,扩展基于编码器的知识表示学习方法的能力。该组合增强对知识图谱中稀疏连接的处理,利用 BERT 强大的嵌入表示和残差网络的深度卷积结构,即使在训练数据有限的情况下也能显著提升实体排序性能。

BLP 模型则侧重于归纳式链接预测,通过利用实体的文本描述和预训练语言模型,突出其对未见实体的泛化能力。该模型通过整合动态图嵌入,超越以往方法,能够在知识图谱不断演变的情况下无需重新训练便实现高效适应。

基于编码-解码器的方法

基于编码-解码器的方法采用诸如 BART 和 T5 等模型,因其直观简洁而著称,所有所需功能均可通过简单的序列到序列模型实现。该方法依据所使用的输入序列类型进行分类。结构化表示方法与基于编码器的方法类似,均采用编码器处理三元组序列作为输入;文本微调方法则类似基于解码器的方法,其采用三元组的自然语言表达作为解码器输入。

(1)结构化表示方法

结构化表示方法通过将三元组作为序列输入编码器,充分利用三元组的结构,从而使模型能够捕捉三元组的句法结构与关系结构。结构信息与自然语言输入的整合提高了对复杂关系的表达能力。图 4 展示 GenKGC 架构,该架构为结构化表示方法的典型示例。

图4 结构化表示方法概览

该方法将知识图谱补全任务转化为序列到序列的生成问题,利用预训练语言模型从表示头实体和关系的输入序列中生成目标尾实体。结构化表示的构造如下:

考虑一个缺失尾实体的三元组,其输入序列通过拼接头实体描述与关系描述构造而成,其生成过程定义为:

模型采用标准的序列到序列目标函数进行训练:

通过关系引导示例和实体感知分层解码提升了表示学习能力,并缩短了推理时间。关系引导示例通过在输入序列中添加具有相同关系的三元组示例来进行增强:

实体感知分层解码则利用实体类型信息约束解码过程,从而降低生成时的搜索空间并提高推理效率。

LambdaKG 将结构信息与文本信息整合到统一模型架构中,推进预训练语言模型在知识图谱嵌入任务中的应用。该方法采用提示工程、负采样及关系感知建模等先进训练技术,提升了知识图谱表示的效率与精度。

(2)文本微调方法

文本微调方法利用三元组的自然语言描述对预训练编码-解码器模型进行调整,使模型在特定知识表示任务上的生成能力得到优化,并在训练与推理效率上具备明显优势。图 5 展示典型文本微调模型 KGT5 的示意图。

图5 文本微调方法概览

KGT5 对 T5 模型同时进行链接预测和问答任务的微调。该过程首先利用链接预测任务预训练模型,随后在问答数据集上进行微调,并通过正则化方法平衡这两项任务。

KGT5 将知识图谱的链接预测与问答任务均视为序列到序列问题,采用实体与关系的文本表示。同时,利用口语化方案将链接预测查询转化为文本查询。训练过程描述如下公式:

该模型架构与训练过程在缩减模型规模的同时保持甚至提升了大规模知识图谱及知识图谱问答任务的性能。

在问答任务微调阶段,KGT5 除了针对问答任务继续训练外,同时保持链接预测任务的训练。这种双任务正则化确保模型具备超越特定问答数据集的泛化能力,因为链接预测任务使学习聚焦于更广的知识图谱结构。每个训练批次均包含数量相等的问答样本与链接预测样本,此均衡批次既防止问答数据过拟合,又确保模型根植于知识图谱的整体结构。

KG-S2S 是一种先进的序列到序列生成框架,旨在解决不同场景下知识图谱补全任务中的各类挑战,而无需针对每种图结构进行修改。该模型克服以往知识图谱补全方法与特定图结构紧耦合、限制其对新型或演化知识图谱适应性的不足。通过将知识图谱中的所有元素(包括实体、关系及元数据)以统一平文本格式处理,KG-S2S 简化数据表示,提高模型的灵活性与可扩展性。其在预训练语言模型上采用先进的微调技术,并融合实体描述和关系软提示等新机制,以增强模型对语境的理解。

基于解码器的方法

基于解码器的方法利用 LLaMA 和 GPT-4 等模型,通过解码器在表征学习过程中的关键作用,实现知识表示的增强。这些方法能够利用大规模语义知识,而不增加额外训练开销。其中,描述生成方法通过生成描述性文本改善低资源实体的表征;提示工程方法将解码器作为问答工具,通过自然语言提问检索三元组信息并完成下游任务;结构微调方法则融合结构和文本嵌入,针对解码器输出进行优化,从而提升知识表示效果。

(1)描述生成方法

描述生成方法通过生成描述性文本来增强低资源实体的表征。该方法补充了文本信息,不仅改善了先前方法的性能,同时保证了更丰富、完整的实体表示。图 6 展示典型上下文化蒸馏 CD 方法在描述生成过程中的应用。

图6 描述生成方法概览

该方法利用大语言模型将简洁的结构化三元组转换为内容丰富、带有上下文信息的段落。具体过程利用提示生成用于知识图谱补全的描述性上下文,基于该三元组构造提示,并利用大语言模型生成描述性上下文。过程可表示为:

为利用这些增强的三元组训练较小的知识图谱补全模型,引入重建任务和上下文化任务两项辅助任务。重建任务利用遮蔽语言建模技术恢复受损的描述性上下文,而上下文化任务训练模型从原始三元组生成描述性上下文。这两项任务的损失函数定义如下:

最终,训练知识图谱补全模型的总损失由知识图谱补全损失与辅助任务损失组合而成:

CP-KGC 模型代表基于文本的知识图谱补全方法的重要进展。该模型利用基于大语言模型的受限提示策略优化与增强知识图谱数据集中的文本描述。CP-KGC 采用设计精简且严谨的提示,对现有文本描述进行再生或补充,从而提高数据整体的表达力和实用性。此方法有效缓解大语言模型生成文本时出现虚构内容的问题,确保输出更加准确且符合上下文。

(2)提示工程方法

提示工程方法借助解码器的自然语言处理能力,将知识检索与表征任务构造为问答问题,充分挖掘模型中蕴含的海量现实世界知识。图 7 展示基于提示工程方法的代表性模型 KG-LLM。

图7 提示工程方法概览

该方法将三元组转换为自然语言提示,并利用大语言模型预测三元组的合理性或补全缺失信息。构造提示以查询大语言模型。例如,在三元组分类任务中,提示可为:

大语言模型随后生成响应,指示该三元组的合理性。通过评分函数对合理性进行量化:

训练目标采用交叉熵损失对大语言模型在带标签三元组上进行微调:

研究通过对大语言模型进行特定指令调优,使其通用自然语言理解能力适应知识图谱三元组处理任务。经过微调的模型(例如 KG-LLaMA 和 KG-ChatGLM)能够更高效地提取和利用知识表征,进一步降低了因语言歧义引起的错误。

KICGPT模型将大语言模型与知识图谱补全方法相结合,以应对传统知识图谱补全方法面临的挑战。该模型采用上下文学习策略显著降低训练开销,无需进行显式微调。模型充分利用大语言模型广泛的预训练知识库以及具备结构感知能力的知识图谱检索器,以改善对长尾实体的处理。此种整合使得 KICGPT 能够同时利用结构化知识图谱信息与大语言模型的广泛知识库,为知识图谱补全任务提供更为稳健的框架。值得注意的是,该模型采用“知识提示”策略,通过引入融合了知识图谱信息的结构化提示,引导大语言模型对缺失实体作出更为准确的预测。

(3)结构微调方法

结构微调方法将结构信息与文本信息的嵌入结合后输入到解码器,通过引入知识图谱中的结构信息优化大语言模型的输出,从而提供更全面的三元组表征。图 8 展示结构微调模型 KoPA 的框架。

图8 结构微调方法概览

该方法将实体和关系的结构嵌入引入大语言模型,以改进知识图谱补全任务。KoPA 的核心思想包含两个主要步骤:预训练结构嵌入和利用前缀适配器将结构嵌入注入大语言模型。首先,通过自监督预训练过程学习结构嵌入,从而捕捉知识图谱的结构信息。对于每个三元组,利用评分函数学习结构嵌入:

预训练目标采用基于边际的排序损失,并结合负样本采样:

预训练完成后,KoPA 利用前缀适配器将这些结构嵌入映射到大语言模型的文本令牌空间,转换过程如下:

转换后的嵌入(即虚拟知识令牌)被预置于输入序列之前:

针对 KoPA 进行大语言模型微调的目标是最小化交叉熵损失:

KG-GPT2 是针对知识图谱补全任务对 GPT-2 语言模型的改造。KG-GPT2 利用 GPT-2 的上下文处理能力,通过预测缺失的链接和关系来完善不完整的知识图谱。该模型将知识图谱中的每个三元组视为一个句子,使 GPT-2 能够准确评估三元组的可能性。通过对三元组进行上下文化处理,KG-GPT2 超越传统的嵌入技术,融合更丰富的语言和语义信息,从而提升知识图谱补全效果。

03

实验与评估

本节对现有实验与评估进行系统回顾,分析前述各种基于大语言模型增强的知识图谱表示学习方法的性能与效果。通过整合不同研究结果,旨在提供一份结构化的综述,展现各方法的潜力与局限。文中各表格中效果最好的结果以粗体显示,次优结果以下划线标注。

数据集

为便于对现有知识图谱表示学习方法进行系统性和对比性分析,本节总结先前研究中常用的数据集,这些数据集构成了评估各方法泛化能力与有效性的基础。各数据集的关键统计信息详见表 2。本综述旨在整合分散的信息,为后续分析提供统一参照。

表2 数据集统计数据

评测指标

本节采用准确率、精确率、召回率与 F1 分数等常用指标评估分类任务。此外,还引入了专门用于排序任务的指标:平均排名(MR)、平均倒数排名(MRR)以及 Hits@K。

下游任务

基于数据集的概述,本节聚焦于用于评估知识图谱表示学习模型的下游任务。通过系统归纳这些任务,本文提出了一套比较框架,以揭示不同方法在各类条件下的优势与不足。见图 9,虽然已将先前研究结果系统化整理,但不同实验指标或设置未必完全一致,使得某些模型间的直接比较存在一定难度。尽管如此,期望这些见解能加深对当前领域挑战的认识。

图9 不同模型可完成的下游任务

(1)实体分类

表3 汇总了在 FIGER 与 Open Entity 两个常用数据集上进行实体类型分类的实验结果,并呈现出以下几方面的趋势:

表3 实体分类实验数据比较

传统基于特征的方法(如 NFGEC 和 UFET)在捕捉实体基本信息方面曾取得一定成效,但其表现仍落后于近期基于转换器结构的方法。基于大语言模型的方法(例如 BERT 和 RoBERTa)通常能获得更高的准确率及 F1 分数,彰显了利用海量文本语料提取上下文信息的重要性。融合外部知识(例如 ERNIE、KnowBert 和 KEPLER)的模型进一步提升了实体分类性能,通过在表达中注入实体相关信息来发挥作用。例如,ERNIE 在 FIGER 上达到 57.19% 的准确率及 73.39% 的微观 F1 分数;KEPLER 在 Open Entity 上的 F1 分数为 76.20%,说明将文本嵌入与知识图谱特征相结合有助于提高模型稳健性。但并非所有方法均报告了完整的可比指标,如 KEPLER 未提供 FIGER 数据集的结果,而 KnowBert 在 Open Entity 上缺失部分指标,这在一定程度上限制了不同方法间的直接比较。

上述结果既展示了大语言模型在获取丰富上下文信息方面的能力,也揭示出融合文本与图结构信息所带来的潜在增益。未来研究可通过建立统一实验协议和共享基准,进一步探讨实体分类模型在不同数据域与标签分布下的表现。

(2) 关系分类

表4 总结了各关系分类模型在 FewRel 与 TACRED 数据集上的性能。

表4 关系分类实验数据比较

早期方法如卷积神经网络依靠卷积特征提取器取得了 69.35% 的 F1 分数,表明神经网络在捕捉局部文本模式方面具有一定优势。随着大规模预训练的引入,基于转换器结构的模型显著提升了性能:例如,BERT_Base 的 F1 分数提高到 84.89%,融入实体知识的 ERNIE 达到 88.32%,显示出注入外部知识对更细致关系建模的正面作用。此外,SemGL 在 FewRel 上报告了 95.11% 的高精确率,但缺乏完整召回率和 F1 分数,导致无法进行全面对比。在 TACRED 上,卷积神经网络与基于长短时记忆网络的方法表现中等,落后于利用图结构信息的图卷积网络(如 C-GCN,其 F1 分数为 66.40%);而基于转换器的模型(如 BERT_Large、RoBERTa 及 MTB)则均超过 70% 的 F1 分数。部分方法结合外部知识(如 KnowBert 与 ERNIE)能使 F1 分数突破 71%,而目前最佳的是基于大语言模型增强的 KEPLER,其 F1 分数达到 72.00%,体现出实体描述对齐在捕捉关系特征上的额外优势。

总体来看,基于 Transformer 的编码器问鼎主导地位,尤其结合外部知识后优势更为明显。传统的卷积或循环神经网络虽然在早期表现突出,但难以匹敌大语言模型的表现;而注重知识的模型则通过无缝融合文本与结构信息取得进一步提升。不过,由于各数据集指标报告不全或标准不一,直接比较仍存在一定局限。

(3) 关系预测

表5 报告了在 FB15K 和 YAGO3-10-100 两个基准数据集上的代表性结果。

表5 关系预测实验数据比较

传统平移方法(如 TransE 与 PTransE)在 FB15K 上表现优良(平均排名约为 1.2、Hits@1 在 93.6% 至 95.7% 之间),其中 ProjE 的 Hits@1 为 95.7%,而 KG-BERT 进一步提升至 96.0%,说明引入文本信息有助于细化关系推理。然而,这些平移基线在更复杂或多样化的 YAGO3-10-100 上的表现仍不明朗,因大部分未在该数据集上评估。与 FB15K 相比,YAGO3-10-100 拥有更丰富的语义与多样化的实体分布。虽然较早的平移方法未提供该数据集结果,但已有多个大语言模型及经过微调的方法进行了评估:例如,针对知识图谱补全的编码器—解码器模型 KGT5 在 Hits@1 上为 60%;通用大语言模型(例如 ChatGPT、GPT-4 以及 LLaMA-7B)的 Hits@1 分别为 39%、56% 和 13%。虽然这些模型对关系推理有所表现,但与专门设计的知识图谱补全模型相比,其效果仍有不足。基于解码器且经指令调优的 KG-LLM 在 Hits@1 上取得了 71%的最高成绩,表明通过专门提示或微调目标针对知识图谱补全任务进行定制能够有效提升关系预测效果。同时,由于较早的结构嵌入方法(如 TransE、DistMult)未在 YAGO3-10-100 上测试,难以判断其在 FB15K 上的突出表现是否能推广到更复杂的数据集。

总体而言,在 FB15K 上,通过结合文本上下文(如 KG-BERT)能超越纯结构方法,表明文本信息有助于提升关系预测;而在 YAGO3-10-100 上,表现最佳的为 KG-LLM,其次是 KGT5,而未经专门调优的通用大语言模型则表现较弱。由于各方法在不同数据集上的实验设置不一,建立统一实验平台加以验证有助于明确文本整合、指令调优或架构选择对关系预测提升的具体贡献。

(4) 三元组分类

表6 汇总了在 WN11、FB13、UMLS、CoDEx-S 与 FB15k-237N 五个常用数据集上,各代表性模型的分类准确率。

表6 三元组分类实验数据比较

一个显著的发现是:基于大语言模型增强的方法通常能够获得更高的准确率。例如,KG-LLM 在 WN11 上的准确率达到 95.6%,而 KoPA 在 CoDEx-S 上取得 82.7%,均优于早期纯结构方法。此外,基于大语言模型的方法能够同时利用文本语义与图结构捕捉微妙的关系特征,因而在多数情况下具有明显优势。但在某些数据集上,部分结构模型依然具有竞争力,例如 RotatE 在 UMLS 上达到 92.1% 的准确率,表明对于较简单或小规模数据,传统方法经过适当调优仍可保持较好表现。数据集本身的特性对模型性能影响明显。规模与关系复杂度适中的 WN11 与 FB13 上,基于编码器的方法(如 KG-BERT、LMKE)准确率均超过 90%;而在具有更多样化或细粒度关系的 FB15k-237N 与 CoDEx-S 上,基于解码器的结构(如 KG-LLM、KoPA)则更显优势,其中 KG-LLM 在 FB15k-237N 上达到 80.5%,领先于缺乏大规模预训练文本知识优势的传统方法。另一方面,未经知识图谱对齐的通用大语言模型(例如 GPT-3.5、LLaMA)在数据集上的准确率往往较低(WN11 上有时低于 30%),这表明额外的微调或结构对齐(例如前缀适配器、提示工程)是必要的。

由于部分经典嵌入模型(如 TransE、ComplEx)未在更新数据集(例如 CoDEx-S 或 FB15k-237N)上进行测试,加之部分大语言模型方法未报告 FB13 或 UMLS 上的结果,各方法间基线不一,使得无法普遍断言大语言模型增强方法在所有场景下均优于纯结构方法。不过,在已有数据支持下,多数结果趋势倾向于整合预训练语言模型的方案,尤其在处理语义更丰富的数据集时优势明显。

尽管大规模文本语义对三元组分类的提升作用明显,但在实际部署时,基于大语言模型的方法依然面临较大计算开销。此外,目前观察到的良好效果尚未在所有领域或数据集上全面验证,因此模型选择应综合考虑数据规模、关系复杂性、资源限制及文本描述的可获得性。未来有必要在不同条件下开展系统性评估,以平衡性能提升与实际应用可行性。

(5)链接预测

如表 7 与表 8 所示,早期基于平移与语义匹配的方法在 WN18RR 与 FB15k-237 等基准上已取得较为理想的表现。例如,DistMult 在 WN18RR 上报告的平均倒数排名为 44.4%,Hits@10 为 50.4%,而 TransE 在 FB15k-237 上的 Hits@10 约为 47.4%。不过,这些依赖结构信息的方法在处理复杂关系模式时常受限,其 Hits@1 指标通常较低(在 WN18RR 上仅为 4% 至 20%)。

表7 链接预测传导设置下 WN18RR 数据集实验数据比较

表8 链接预测传导设置下 FB15k-237 数据集实验数据比较

神经网络扩展模型如 ConvE 与图卷积网络(R-GCN)则增强了特征表达能力;例如,ConvE 在 FB15k-237 上实现了 31.2% 的平均倒数排名,优于 TransE(27.9%),但在稀疏图或大规模数据上依然存在挑战。

近年来,通过引入实体描述与提示信息并利用大规模预训练编码器的方法显示出进一步改进:SimKGC 在 WN18RR 上实现了 66.7% 的平均倒数排名(Hits@10 达 80.5%),CP-KGC 则报告了 67.3% 的平均倒数排名(Hits@10 为 80.4%),均大幅超越纯结构的 ComplEx(平均倒数排名约 44.9%)。在 FB15k-237 上,一些方法如 OpenWorld 知识图谱补全与 Pretrain-KGE 达到的平均倒数排名约为 30% 到 35%,显示出相较于早期基线的明显提升。

对于基于编码器—解码器以及单纯基于解码器的生成模型,表现则较为参差:KGT5 在 FB15k-237 上的平均倒数排名为 34.3%,虽然优于许多传统方法,但仍可能落后于例如 SimKGC 这样强大的检索式方法;而基于提示的生成方法(如 CSPromp-KG)则能有效利用文本提示,将 FB15k-237 上的平均倒数排名提升至约 35% 至 36%,在 Wikidata5M 上达到 38%。

如表 9 所示,对于领域性较强、规模较小的 UMLS 数据图,传统结构方法已能取得极高的 Hits@10(98% 至 99%);而 LP-BERT 利用文本描述进一步将平均排名降低至 1.18,同时 Hits@10 达到 100%。相比之下,多样性更强的 Wikidata5M 上,DistMult 的平均倒数排名仅为 25.3%,而基于大语言模型增强的 SimKGC 与 CSPromp-KG 分别将其推进到 35.8% 与 38.0%。这些结果充分说明大语言模型在丰富实体表示、处理高异质性关系时的优势。

表9 链接预测传导设置下 UMLS 和 Wikidata5M

数据集实验数据比较

此外,如表 10、11、12 所示,在归纳或低数据情景下的评估更为严格。例如,在 NELL-One 数据集上,纯结构方法在零样本或少样本模式下通常只能达到低于 25% 的平均倒数排名;而结合文本的 KG-S2S 在零样本模式下能达到 31%。同理,SimKGC 在 Wikidata5M 零样本划分下达到 71.4%,显著优于例如仅使用 RoBERTa 的基线模型(仅为 7.4%)。这些结果表明,得益于丰富的文本预训练,大语言模型方法在处理未见实体或关系时具备较强的归纳能力。

表10 链接预测传导设置下FB15k-237N 数据集

实验数据比较

表11 链接预测归纳设置下 NELL-One 数据集实验数据比较

表12 链接预测归纳设置下 Wikidata5M 数据集实验数据比较

总体来看,基于大语言模型增强的方法往往能超越或接近纯结构方法,特别是在大规模或复杂知识图谱上。在零样本情景下,其依赖预训练文本知识的特征更为明显。但必须指出,这种统一优势尚未得到完全验证,有些编码器—解码器方法虽然擅长文本生成,但在大规模结构推理中可能不及先进的图检索策略;同时,部分最新解码器模型在所有基准数据上的实验结果尚不全面,影响公平比较。未来工作可在扩展实证覆盖面、改进提示工程以及在精度与推理成本之间寻求平衡方面进一步探索。

04

未来方向

近年来大语言模型取得重大进展标志着知识图谱表示学习研究的重要拐点,为深入探索如何将大语言模型优势有效整合到知识图谱表示学习中提供全新机遇。本文提出以下六项建议:

动态与多模态知识表达

静态三元组无法充分表示知识的发展,未来的知识图谱表示学习方法可采用时序或事件驱动的表达方式,以应对现实数据中固有的动态与不断演化特性。对事件序列的建模以及因果依赖关系的捕捉,有助于更细致地理解实体和关系如何随时间产生、融合或消散。这种时序敏感性能够揭示出在静态假设下难以察觉的细微模式,从而提升知识图谱的准确性与时效性。

引入时序视角可凸显实体及其交互演化过程中被忽视的动态变化。时序更新不仅要求对知识状态进行持续监控,还需构建有效机制,将新信息与现有图结构有机整合。

此外,将知识图谱表示学习扩展到文本、图像和视频等多模态数据,可进一步丰富知识图谱的表达能力。然而,不同数据类型的融合面临诸多技术挑战,如容易导致各模态特定细节信息的丢失。克服这些挑战通常需要采用专门的建模架构和基准测试策略,明确评估在动态多模态情境下的性能表现。

效率、鲁棒性与可解释性

尽管大语言模型在知识表达方面取得显著改进,但其所需的计算资源开销限制在实际场景中的直接部署。为实现实际应用,必须缩减模型规模、优化推理时长以及合理分配资源。通过模型裁剪、量化以及将知识进行蒸馏以构建更紧凑的架构,可以在性能与效率之间取得平衡。

在现实的知识应用中,抗噪声能力以及对领域变化的适应同样重要。采用领域适应、对抗训练和概率表征等方法,可以使整合大语言模型的知识图谱表示学习模型在引入新信息或矛盾信息时仍保持稳定性能。增强可解释性则有助于提升用户信任。透明的推理流程以及因果解释等方法均能帮助清晰揭示系统如何以及为何达成某一结论。

知识图谱表示学习下游任务与大语言模型整合

整合知识图谱表示学习与大语言模型能够显著提升解决各类问题与下游任务的能力。未来研究应聚焦于如何利用这一整合模型改善各领域中的人类决策与知识发现。

交互系统使用户能够查询并与整合大语言模型的知识图谱表示学习模型进行互动,从而增强知识探索和问题解决能力。自然语言界面让用户提出问题,并获得相应解释,使复杂的知识图谱变得更易理解。

此外,研究还可探索结合持续人类反馈的协同学习框架,将人机交互融入模型的学习过程中。诸如主动学习等技术有助于提升模型理解,并促进人机双方优势的互补协同,从而实现更优性能。

传统知识表示学习模型的数据增强

将大语言模型融入知识图谱表示学习不应局限于提升文本信息理解。未来研究应探索利用大语言模型优势与传统方法相结合,实现更广泛的协同优化。一种有前景的方向在于构建混合框架,使得预先构建的、较为轻量高效的模型能与模型协同合作。前者负责处理较简单或常规任务,而后者则专注于复杂的推理与表达任务。此种分工可显著提升知识图谱表示学习的整体性能与效率,确保各类模型的优势在最合适的场景中得到充分发挥。

此外,数据增强通过扩展训练数据的多样性与丰富性,进一步提升模型表现。数据增强措施包括从现有数据集中生成合成数据,以及构造文本、视觉或多模态输入的多种变体。这类增强数据既有助于轻量模型,也促进整合大语言模型的模型在各领域中获得更好的泛化能力和鲁棒性。

以知识图谱为中心的指令调优

另一有前景的方向在于通过设计专门的提示模板和指令调优过程,使大语言模型更加适应以图为中心的场景。通过构建涵盖知识图谱结构及语义的领域相关模板,可使大语言模型产生与三元组表示一致且精确的输出。这种定制化提示策略有助于约束大语言模型固有的开放式回答特性,适用于要求输出明确定义和结构化的任务。

指令微调进一步弥合文本理解与形式化图输出间的差距。将基于序列到序列或解码器架构的大语言模型扩展为能够直接生成或更新三元组,而非仅生成文本摘要,将有助于大规模预训练知识与知识图谱表示学习任务之间更为顺畅的整合。该策略在数据验证及大规模知识图谱构建等应用中均具有广阔前景。

增量与持续学习

知识始终处于不断演化状态,因而增量与持续学习机制显得尤为重要。为使整合大语言模型的知识图谱表示学习模型保持最新状态而无需从头重新训练,须能在新事实和关系出现时及时加以吸纳,从而降低训练时间与计算开销。采用实时更新架构并结合流式数据处理范式,可使知识图谱既能反映最新变化,又保留核心已学模式。

在频繁更新可能导致模型不稳定的场景下,保留既有知识至关重要。基于正则化策略和重放机制的措施,有助于缓解灾难性遗忘,确保新信息不会覆写先前获得的见解。在连续性和机构记忆对维持准确且富有上下文的底层数据表示至关重要的领域中,这类解决方案尤为关键。


如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值