自我介绍:
您好,我们是一群热情洋溢的探索者,致力于深耕于知识图谱和大型语言模型(LLM)领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信,知识的传播和交流是促进创新和社会发展的关键力量。
论文标题
IMF: Interactive Multimodal Fusion Model for Link Prediction
IMF:链接预测的交互式多模态融合模型
论文链接
https://github.com/HestiaSky/IMF-Pytorch
作者
Xinhang Li,Xiangyu Zhao∗,Jiaxing Xu,Yong Zhang∗,Chunxiao Xing
论文背景
链接预测旨在识别知识图中潜在的缺失三元组。为了得到更好的结果,最近的一些研究引入了多模态信息来进行链接预测。然而,这些方法单独利用多模态信息,忽略了不同模态之间复杂的相互作用。在本文中,我们旨在更好地建模跨模态信息,从而引入一种新的交互式多模态融合(IMF)模型来整合来自不同模态的知识。为此,我们提出了一个两阶段的多模态融合框架,以保留模态特定知识,并利用不同模态之间的互补性。我们的多模态融合模块不是直接将不同的模态投射到一个统一的空间中,而是限制了不同模态的独立表示,同时利用双线性池进行融合,并将对比学习作为额外的约束。此外,决策融合模块提供所有模式预测的学习加权平均,以更好地融合不同模式的互补性。通过对几个真实世界数据集的实证评估,我们的方法已被证明是有效的。
问题分析
知识图谱(Knowledge Graph, KG)存储了丰富的知识,对于许多现实世界的应用来说是必不可少的,比如问答、城市计算和推荐系统。通常,KG由关系三元组组成,表示为<头部实体,关系,尾部实体>。然而,由于知识的复杂性、多样性和可变性,KG不可避免地是不完整的。为了弥补这一差距,研究了链接预测问题,以预测潜在的缺失三元。传统的链路预测模型,包括基于翻译的和神经网络方法,存在三元组间的结构偏差问题。最近,一些研究通过丰富数据集并提出新的模型来捕获用于链接预测的多模态信息来解决这一问题。然而,这些研究的表现是有限的,因为它们将所有模态以相同的关系投射到一个统一的空间中,以捕捉共性,这可能无法保留每个模态中的特定信息。因此,他们不能有效地模拟模式之间复杂的相互作用,以捕捉互补性。
为了解决上述问题,我们倾向于全面学习知识,而不是单独学习,这与人类的思维方式相似。
以图1中的场景为例,这样的模型也可能会根据图结构与俄亥俄州阿克伦市共同出生的斯蒂芬库里的相似性,得出勒布朗詹姆斯为金州勇士队打球的错误预测。同时,视觉特征很难表达细粒度的语义,唯一的结论是LeBorn James是一个篮球运动员。此外,由于文本描述中第二句中的“played”(与playsFor比第三句中的“joined”更一致),它也可能会对克利夫兰骑士队做出过时的预测。然而,通过整合这些知识,很容易得到正确的答案LogAngeles Lakers,图1突出显示了结构、视觉和文本互补信息之间的相互作用。由于从不同模式中学习到的知识是多样和复杂的,因此有效地整合多模式信息是非常具有挑战性的。
本文提出了一种新的交互式多模态融合模型(IMF),用于知识图上的多模态链路预测。IMF可以单独学习每个模态的知识,并通过两阶段融合的方式对不同模态之间复杂的相互作用进行联合建模,类似于上文介绍的人类自然识别过程。在多模态融合阶段,我们采用双线性融合机制,通过对比学习充分捕捉多模态特征之间复杂的相互作用。对于基本链接预测模型,我们利用关系信息作为上下文对每个模态中的三元组作为预测进行排序。在最后的决策融合阶段,我们将不同模式的预测进行整合,利用互补信息进行最终的预测。
- 本文提出了一种新的两阶段融合模型IMF,该模型可以有效地整合不同模式的互补信息进行链接预测。
- 我们设计了一个有效的多模态融合模块,以捕获双线性交互与对比学习,共同建模的共性和互补性。
- 我们通过对四个广泛使用的数据集进行多模态链接预测的大量实验,证明了IMF的有效性和泛化性。
理论方法
为了充分利用不同模态之间复杂的相互作用,我们提出了一种两阶段融合模型,而不是简单地在统一的向量空间中单独考虑多模态信息。
如图2所示,IMF由四个关键组件组成:
- 模态特定编码器用于提取结构、视觉和文本特征,作为多模态融合阶段的输入。
- 多模态融合模块(Multimodal Fusion Module)是融合的第一个阶段,它基于Tucker分解(这里后面会做介绍)和对比学习有效地模拟了不同模态之间的双线性相互作用。
- 上下文关系模型计算上下文实体表示的相似性,以形成三分作为决策融合阶段特定于模式的预测。
- 决策融合模块是第二个融合阶段,考虑了结构、视觉、文本和多模态模型的所有相似分数,以做出最终预测。
结构编码器
这里的结构编码器,最基本的角度来看,就是KG的结构信息,作者采用了具有TransE随时的图注意力网络(GAT),具体来说,GAT编码器将邻居聚合表示的L1距离作为三元组的评分函数。详细的GAT可以自行百度了。
视觉编码器
视觉特征具有很强的表现力,同时提供了与传统KGs不同的知识视角。为了有效提取视觉特征,我们利用在ImageNet3上预训练的VGG162,得到如下对应实体的图像嵌入。具体来说,我们将softmax操作前最后一个隐藏层的输出作为视觉特征,即4096维向量。
文本编码器
实体描述所包含的知识要比纯粹的KGs丰富得多,但也更加复杂,为了充分提取复杂的知识,我们采用BERT作为文本编码器,它具有很强的表达能力,可以得到相应实体的描述嵌入。文本特征为768维向量,即预训练BERT-Base模型的集合输出。
多模态融合阶段
多模态融合阶段旨在有效地获得多模态表征,以充分捕捉不同模态之间复杂的相互作用。许多现有的多模态融合方法在VQA (Visual Question answer)等任务中都取得了很好的效果。然而,它们大多是通过情态投射或跨情态注意来寻找共性以获得更精确的表征。这些类型的方法在不同的模态中会丢失独特的信息,并且不能实现模态之间的充分交互。
为此,我们提出采用双线性模型作为多模态信息融合的基石,该模型具有较强的实现全参数交互的能力。具体来说,我们扩展了Tucker分解,它将张量分解为一个由矩阵和每个模态变换成4模态因子的核心张量,如下式所示。
这里的Pc表示小核心张量,其余三种M表示变换矩阵。
在这种情况下,实体嵌入首先被投射到一个低维空间,然后与核心张量P𝑐融合。接下来[3],我们通过分解核心张量P𝑐来进一步降低计算复杂度,将所有模态的表示合并到一个具有元素积的统一空间中。详细计算过程如式所示:
对比学习
然而,多模态双线性融合没有边界限制,最终预测结果产生的梯度只能隐式指导参数学习。为了缓解这个问题,我们添加了约束来限制同一实体的不同模态表示之间的相关性,使其更强。因此,我们进一步利用不同群体之间的对比学习:
在对比学习设置中,我们将不同模态的同一实体的成对表征作为正样本,将不同实体的成对表征作为负样本。如图3所示,我们的目标是限制负样本的距离大于正样本的距离,以增强多模态融合。
Tucker张量分解
Tucker张量分解是一种在多模态融合中非常重要的技术,它本质上是矩阵分解的高阶泛化,常用于数据降维、稀疏学习、模式挖掘等领域
。在多模态融合的背景下,Tucker分解能够有效地处理和整合来自不同模态的信息。
在多模态融合中,Tucker分解可以用于参数化不同模态之间的双线性交互。例如,在视觉问答(VQA)任务中,MUTAN模型利用Tucker分解来有效地参数化视觉和文本表示之间的双线性交互,同时设计了低秩矩阵分解来限制交互的秩,从而控制融合过程的复杂度并保持可解释的融合关系。这种基于张量的多模态融合方法能够提供比传统双线性模型更强大的表达能力,同时减少参数数量,避免维度爆炸问题。
上下文关系模型
在获得每个模态和多模态的表示后,我们设计了一个上下文关系模型,该模型将三元组中的关系作为评分的上下文信息,以获得预测。注意,这个关系模型可以很容易地被任何评分函数(如TransE)取代。
由于KGs中关系的多样性和复杂性,我们认为提高参数相互作用的程度[32]至关重要。参数相互作用程度是指每个参数与所有其他参数的计算比率。例如,点积可以达到1/𝑑度,叉积可以达到(𝑑−1)/𝑑度。基于这一假设,我们建议使用实体和关系嵌入之间的双线性外积来将上下文信息整合到实体表示中。我们的上下文关系模型不像以前的研究那样将关系作为输入,而是利用关系在实体嵌入的转换矩阵中提供上下文。然后,使用上下文变换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体的相似度。学习目标是最小化二元交叉熵损失。
决策融合
现有的多模态方法主要是将不同的模态表示投射到一个统一的空间中,并利用模态之间的共性进行预测,无法保留模态特有的知识。我们通过联合学习和结合不同模式的预测来缓解决策融合阶段的这一问题,以进一步利用互补性。在多模态设置下,我们为每个模态分配不同的上下文关系模型,并利用它们自己的结果在不同的视图下进行训练。回想一下式中的对比学习损失,总的训练目标是最小化式中的联合损失:
实验部分
FB15K-237的评价结果。“*”表示在最佳基线上有统计学显著改善(即𝑝< 0.05的双侧t检验)。
下表为利用不同模态信息对FB15K-237的评价结果,其中𝑆为结构信息;表示图像的视觉信息,𝑇表示描述的文本信息。我们可以看到,通过引入视觉或文本信息,性能得到了显著提高。多模态融合模块带来的显著性能提升不仅证明了我们方法的有效性,也表明了在KG中集成多模态信息的潜力。
从上述结果中,我们可以看到,我们提出的IMF的每个组成部分对整体绩效都有重大贡献,并且有助于捕捉不同模式之间的共性和互补性。
结论
本文研究了多模态知识图的链接预测问题。具体来说,我们的目标是改善不同模式之间的互动。为了实现这一目标,我们建议IMF采用两阶段框架,通过以下方式实现多模态信息的有效融合:
- 利用双线性融合充分捕捉不同模态之间的互补性和对比学习,以增强同一实体不同模态之间的相关性;
- 采用集成损失函数来共同考虑多模态表示的预测。在多个基准数据集上的实验结果证明了该模型的有效性。此外,我们还进行了深入的探索,以说明我们提出的方法的泛化性以及在实际应用中应用的潜在机会。
但是,IMF仍然存在一定的局限性,这将留给未来的工作。例如,货币基金组织要求所有模式的完整性和一个额外的组成部分,以预测缺失的模式可能有助于解决这一限制。
此外,设计合适的组件以支持更多不同的模态或提出更轻量化的融合模型来取代双线性模型以提高效率也是可行的