《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》论文整理


论文链接https://arxiv.org/pdf/2402.05391.pdf


一.摘要部分

文章主要聚焦于两个主要方面的知识图谱感知研究:

  • 知识图谱驱动的多模态学习
  • 多模态知识图谱

首先,文章将分别提供知识图谱和多模态知识图谱的形式化定义,并探讨它们的构建过程。接着,文中详细讨论了知识图谱驱动的多模态学习在图像分类和视觉问答等任务中的应用。此外,也对多模态知识图谱的相关任务进行了阐述,如多模态知识图谱的构建和实体对齐等。最后,文章提供了这些研究任务的定义和评估基准,并概述了进行这些研究的基本见解。

二.介绍部分

文章首先提出文献说明将知识推理和多模态感知分开考虑不是最合适的,以人类的认知记忆过程举例提供论证依据,随后将记忆分为两类:

  1. 第一类类似于条件反射:这涉及到通过反复练习增强的类比推理能力,并与视觉、听觉和触觉等多模态信息相结合,从而有效地执行如视觉问答和图像描述生成等基本任务。
  2. 第二类被称为从主体到尾部的知识:这类知识较为罕见,通常不会直接引发条件反射,而是需要深层次的思考。在当前的预训练模型中,获取信息时可能会遇到幻觉或不寻常知识的问题。鉴于知识图谱在长尾实体表示方面的效用,将其与多模态学习结合成为一种有价值的解决方案。

A.动机和贡献

文章动机:知识和多模态本质来说是互补的但是以往的工作要么关注于知识图谱增强的多模态工作要么关注于多模态知识图谱本身。

文章贡献:

  • 梳理传统知识图谱到多模态知识图谱的推演过程
  • 梳理知识图谱增强的多模态任务并进行分类
  • 探讨了多模态技术对知识图谱的影响
  • 探讨了大模型与多模态任务相互作用的进展

B.相关文献综述

分析了本文与之前相关领域综述的区别
​​在这里插入图片描述

  1. Zhu等人的文章从CV的角度探讨了多模态知识图谱及其构造的各种特征;Peng等人从语义网的角度对多模态知识图谱进行了详细的分析。文章认为这两项工作对多模态知识图谱的内外任务阐述不够全面且见解有限。
  2. Monka等人综述了知识图谱嵌入方法及其与高维视觉嵌入的集成,强调了知识图谱在视觉信息传递中的重要性。Lymperaiou等人的工作讨论了用知识增强多模态学习,渴望将视觉语言表征和KG领域融合在一起。然而,这些研究主要关注KG对多模态任务的单边支持,忽视了KG和多模态方法之间的双向反馈和协同进化。
  3. 前面四项工作最晚延伸到2022年,为了应对2022年至2023年AGI的快速发展,我们的调查探讨了MM4KG和KG4MM之间的复杂关系。

C.文章架构

  • 前置工作部分:介绍了知识图谱(KG)和多模态(MM)学习中的关键概念,并概述了KG4MM和MM4KG的设置。
  • 知识图谱构建部分:讨论了知识图谱的范围和结构,过渡到多模态知识图谱(MMKG)的演变。
  • 知识图谱驱动的多模态学习部分:深入研究各种KG4MM任务,详细说明每个任务的资源和基准在过去三年中开发的先进方法,将它们分为五个范式:理解和推理;分类;内容生成;检索;多模态预训练。(文中写了五个范式但是说分成四个范式)在这里插入图片描述
  • 多模态知识图谱任务部分:整理MM4KG领域内的任务,将关键任务分为四个领域:MMKG获取、融合、推理和MMKG驱动任务。还分析了KG4MM和MM4KG的当前趋势和工业应用,提供了它们对各个行业的影响的见解。

三.前置工作部分

A.知识图谱


自2007年以来,知识图谱已经成为了各个领域的关键,主要以YAGODBPediaFreebase等项目为标志。2012年谷歌将知识图谱纳入搜索领域,随后各大公司也将知识图谱纳入各种领域。反映了它们在商业领域的广泛重要性和日益普及。

结构组成:知识图谱使用图结构表示现实世界的实体和关系,其中节点表示现实世界的实体或原子值(属性),节点间的连线表示关系。知识图谱中的知识表示主要使用三元组,例如(Hangzhou, locatedAt, China)。实体类和关系类主要使用本小节后面的基于本体的模式来构建,这种半结构化的特性将结构化数据的清晰语义(来自本体论)与非结构化数据的灵活性结合在一起,允许通过新的类和关系轻松扩展。

可访问性和优势:知识图谱主要通过查找和查询方法等操作来支持广泛的下游任务。知识图谱检索基于输入字符串识别相关实体或属性,利用实体和关系标签中的词法索引(表面)。例如,DBpedia在线查找服务。查询通常使用SPARQL2这种RDF查询语言来返回结果,这些查询涉及带有变量的子图模式,可生成匹配的实体、属性、文本或完整子图。知识图谱(KGs),尤其是包含OWL本体的KGs,支持符号推理,如一致性检查和描述逻辑推断,这有助于揭示隐藏的知识。KGs还通过链接不同领域的共同实体来增强域间的互联性,这不仅增强了机器的理解能力,也提高了人类的理解能力,对搜索、问答和推荐系统等应用非常有利。此外,最新研究还突出了KGs在管理长尾知识方面的关键作用[2]​​​​​​​[3][4][5]

  1. ​表述:下面首先介绍被广泛接受的知识图谱及基本操作,然后从语义网的角度丰富了本体的知识图谱,最后从语义网范围外的知识图谱的解释和使用进行扩展。

形式化定义1:知识图谱
G = { E , R , T } G = \left \{ E, R, T \right \} G={E,R,T}由一个实体集 E E E、一个关系集 R R R和一个语句集 T T T组成。一个语句要么是关系事实三元组 ( h , r , t ) (h,r,t) (h,r,t),要么是属性三元组 ( e , A , v ) (e, A,v) (e,A,v)。​​​​​​​知识图谱是由实体和关系构成的多关系图,实体通过节点表示,关系通过边连接。实体可以拥有属性,这些属性通过三元组的形式表达,指出实体具有特定的值。这些值包括字符串、日期等字面量,并且可以包含元数据,如标签和定义,这些通常通过注释属性来表示。

  1. 本体:在语义网中,本体作为知识图谱模式,利用RDFS3和OWL4等语言来确保更丰富的语义和更高质量[14]​​​​​​​。本体的主要特征包括:​​​​​​​​​​​​​​​​​​​​​
    • 层次类,通常称为概念
    • 指定关系中使用术语的属性
    • 包含概念和关系的层次结构
    • 约束,包括关系的领域和范围,以及阶级脱节
    • 包含关系组合的逻辑表达式​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​

    语言如 RDF、RDFS 和 OWL 引入了内置词汇来捕获这些知识元素,其中的谓词如 rdfs:subClassOf表示概念的包含关系,rdf:type 表示实例与概念之间的关联。此外,RDFS 提供了注释属性如 rdfs:label 和rdfs:comment,用于提供有关资源的元信息。

  2. 知识图谱范围扩展:被广泛接受的知识图谱包括WordNetConceptNet,前者用于定义词汇间的相互关系,后者用于存储由不同术语连接起来的常识知识。文章中扩展了传统的知识图谱观点,超越了标准格式的实体和关系。此外,本体也被认为是知识图谱的一种形式,通常用来定义领域知识,包括概念化和词汇。Chen等人的工作进一步阐述了这一扩展的视角,本文的范围包括更简单的图结构,如具有层次类的基本分类法和具有表示实体之间相似性和距离等数量关系的加权边的图。此外,我们将任何以图形格式组织的结构化数据,并且节点具有明确的语义解释,都归类为这个更广泛的知识图谱定义的一部分。一个突出的例子是语义网络,它通过带标签的边连接各种概念,以表示不同的关系。

B.多模态学习

我们的世界是通过各种形式感知的,包括视觉、声音、运动、触觉和嗅觉[18],从这篇文章可以看出集成了多种模态数据的模型通常会积累更多的信息,从而超过单模态模型。“模态”通常是指一种特定类型的数据或信息通道,以感觉输入或表示格式为特征。多模态学习旨在通过结合来自不同感官源或数据获取方法的独特特征,如视觉、听觉和文本输入,来建立一个统一的表示或映射到输出空间。这种方法通过利用各模态间的互补性和冗余性来增强预测能力。主要挑战是有效地对齐、融合和整合这些不同模态的信息,以最大化它们的集体效益。

  • 多视角学习的差异:多视角学习与多模态学习有明显区别。多视角学习侧重于从同一数据类型的不同视角都可以独立产生准确的预测[19][20]。多模态学习涉及结合来自不同来源的多种数据类型(如文本和图像),以应对缺少任何一种模态可能会阻碍任务完成的场景[21]。因此,本文在探索多模态任务和将多模态学习应用于知识图谱时,采用了对多模态学习的这种更广泛的理解。

形式化定义2:多模态学习:
假设给定的数据 x ^ = ( x ( 1 ) , … , x ( K ) ) \hat{x} = (x^{(1)}, \ldots, x^{(K)}) x^=(x(1),,x(K)) K K K 种模态组成,每个 x ( k ) ∈ X ( k ) x^{(k)} \in X^{(k)} x(k)X(k) 代表第 k k k 种模态的域集合,输入空间 X = X ( 1 ) × ⋯ × X ( K ) X = X^{(1)} \times \cdots \times X^{(K)} X=X(1)××X(K)。让 Y Y Y 表示目标域, Z Z Z 表示潜在空间。从输入空间到潜在空间的真实映射表示为 g : X → Z g : X \rightarrow Z g:XZ,真实任务映射表示为 q : Z → Y q : Z \rightarrow Y q:ZY。例如,在基于聚合的多模态融合中, g g g 作为建立在 K K K 个独立子网络之上的聚合函数,而 q q q 是一个多层神经网络。在学习任务中,数据对 ( x ^ , y ) ∈ X × Y (\hat{x}, y) \in X \times Y (x^,y)X×Y 是从未知分布 D D D 生成的,使得 P D ( x ^ , y ) = P y ∣ x ^ ( y ∣ q ∘ g ( x ^ ) ) P x ^ ( x ^ ) P_D(\hat{x}, y) = P_{y|\hat{x}}(y | q \circ g(\hat{x})) P_{\hat{x}}(\hat{x}) PD(x^,y)=Pyx^(yqg(x^))Px^(x^)其中 q ∘ g ( x ^ ) = q ( g ( x ^ ) ) q \circ g(\hat{x}) = q(g(\hat{x})) qg(x^)=q(g(x^)) 表示 q q q g g g 的复合函数。

  • 多模态设置的范围:这篇论文主要研究涉及文本和图像数据的视觉语言任务,强调在此类研究中保持连续性和深入分析。文中专注于语言和视觉两种模态,简化输入域为语言和视觉数据的组合。 X = X l × X v  以及  x ^ = ( x l , x v ) ,  其中  x l ∈ X l  和  x v ∈ X v X = X^{l} \times X^{v} \text{ 以及 } \hat{x} = (x^{l}, x^{v}), \text{ 其中 } x^{l} \in X^{l} \text{ 和 } x^{v} \in X^{v} X=Xl×Xv 以及 x^=(xl,xv), 其中 xlXl  xvXv分别表示来自语言和视觉域的输入数据。对于视频或生物化学等特殊模态的讨论较少,相关任务将在文中特定章节详细说明。

C.知识图谱增强的多模态设置

知识图谱作为领域知识、常识知识等多种知识类型的知识库,在多模态场景中得到了广泛应用。

  1. 子知识图谱提取:有效解决特定任务通常依赖于对局部知识的运用,通过结合子知识图谱提取(从如WordNet这样的大型知识图谱中提取关键信息)和下游任务,可以降低不相关信息的干扰。这个过程往往需要运用检索、导向或语义分析的方法。
  2. 面向任务的知识图谱构建:为了满足特定多模态任务的需求,研究人员有时会建立全新的知识图谱,而非仅使用现成的图谱。这个定制过程要么直接源于数据集,要么结合了多个现有图谱,并遵循两种主要的研究方法之一。
    • 静态领域知识图谱构建:在特定领域的知识图谱构建中,存在两种主要的情况:一是当通用知识图谱中缺乏某个特定任务所需的知识时,就需要创建一个包含重要背景知识的定制知识图谱,如零样本图像分类任务;二是当通用知识图谱只部分覆盖任务需求时,需要从现有知识图谱中精选和重新组织信息来填补知识空白,如在知识感知的视觉问答中使用多个来源抽取RDF事实。
    • 动态临时知识图谱构建:这种方法专注于在任务执行期间构建动态的临时知识图谱,利用知识图谱推理算法来支持任务。例如,在建立类别之间的共现关系时(如食品成分),涉及分析训练数据集中的频率,以及公共类属性和层次结构。此外,Li等人使用场景图将图像中的视觉和语义信息结合起来,从实体三元组中派生出图像描述的语义关系特征。

D.多模态知识图谱设置

随着多模态技术的发展,单模态知识图谱在处理互联网上各种多模态应用的局限性逐渐显现,这促使工业界和学术界开始创建多模态知识图谱。

多模态知识图谱范围:知识图谱(KG)被认为是多模态的(MMKG),当它包含以多种形式表达的知识符号时,这些形式可能包括文本、图片、声音或视频等。根据Zhu等人的研究,本文区分了两种多模态知识图谱的表示方法:A-MMKG和N-MMKG。在A-MMKG中,图像被视为实体的属性;而在N-MMKG中,图像可以作为独立的实体存在,并具有直接的关系。

形式化定义3:多模态知识图谱
G = { E , R , A , T , V } G = \left \{ E, R, A, T, V \right \} G={E,R,A,T,V}其中 T = { T A , T R } T = \left \{ T_A,T_R \right \} T={TA,TR},并且 T R = E × R × E T_R = E \times R \times E TR=E×R×E T A = E × A × V T_A = E \times A \times V TA=E×A×V

  • (i)A-MMKG利用多模态数据(例如,图像)作为实体或概念的特定属性值,其中 T A = E × A × ( V K G ∪ V M M ) T_A = E \times A \times (V_{KG} \cup V_{MM}) TA=E×A×(VKGVMM),这里的 V K G V_{KG} VKG V M M V_{MM} VMM 分别是知识图谱和多模态数据的值。
  • (ii) N-MMKG将多模态数据视为知识图谱的实体,其中 T R = ( E K G ∪ E M M ) × R × ( E K G ∪ E M M ) T_R = (E_{KG} \cup E_{MM}) \times R \times (E_{KG} \cup E_{MM}) TR=(EKGEMM)×R×(EKGEMM),将典型的知识图谱实体 E K G E_{KG} EKG与多模态实体 E M M E_{MM} EMM 分开。

例如,在N-MMKG中, T R T_R TR 中的关系三元组 ( h , r , t ) (h, r, t) (h,r,t) 可能包括 h h h t t t 作为图像, r r r 定义关系。相反,在A-MMKG中, T A T_A TA 中的属性三元组 ( e , a , v ) (e, a, v) (e,a,v) 可能将图像作为 v v v 与属性 a a a 关联,通常指定为 h a s I m a g e hasImage hasImage。注意,N-MMKG和A-MMKG并不是严格排他的:N-MMKG可以被视为A-MMKG的一个特殊情况,特别是当A-MMKG中的一个实体采用图像形式时,从而将其转变为N-MMKG。考虑到数据访问的便利性和与传统知识图谱的相似性,A-MMKG构成了当前多模态知识图谱研究中大多数应用和方法的基础。

四.知识图谱构建

A.传统知识图谱

B.多模态知识图谱

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值