论文来源:WWW 2023
论文地址:https://dl.acm.org/doi/pdf/10.1145/3543507.3583554
论文代码: GitHub - HestiaSky/IMF-Pytorch
Abstract
最近一些研究将多模态信息引入到链接预测中,但是这些方法是分别利用多模态信息的,忽略了不同模态之间的复杂交互。 为了更好地建模模态间的信息,引入一种交互式多模态融合模型,整合不同模态间的知识。通过两阶段式多模态融合框架来保存特定模态的知识,并利用不同模态之间的交互。多模态融合模块没有将不同模态投影到一个统一的向量空间,而是限制了不同模态的独立表示,同时利用双线性池化进行融合,并将对比学习作为额外的约束。此外,决策融合模块在所有模态预测的上提供学习到的加权平均,以更好地整合不同模态的互补性。
Introduction
之前的研究局限于将多模态数据投射到一个统一的向量空间中,以捕获各模态之间的共性,导致可能无法保存每个模态中的特定信息,因此不能有效地模拟模态间复杂的相互作用,以捕获共性。
为了解决上述问题,本文倾向于全面的学习知识,而非单独学习。然而,由于从不同模态学习到的知识是多样且复杂的,因此有效整合多模态信息具有很大的挑战。本文提出一种新的交互式多模态融合(IMF)模块,用于多模态知识图谱链接预测。
IMF模块可以在各模态中分别学习知识,并通过两阶段融合来联合建模不用模态之间复杂的相互作用。在多模态融合阶段,利用一个双线性融合机制,通过对比学习来捕获多模态特征之间的复杂相互作用,对于基础的链接预测模型,利用关系信息作为上下文对三元组进行排序,作为每个模态中的预测。在最终的决策融合阶段,整合来自不同模态的预测,并利用互补信息来进行最终的预测。
Methodology
如Figure 2所示,IMF包括4个关键部分:特定模态编码器、多模态融合模块、上下文关系模型、和决策融合模块。
Modality-Specific Encoders
——提取结构、视觉和文本特征,作为多模态融合阶段的输入
用于不同模态的预训练编码器,在训练过程中没有进行微调,且IMF是一个通用框架,可以直接用其他最新的编码器替代,或添加新模态的编码器。
结构编码器使用的是具有TransE损失的图注意力网络;
视觉编码器使用的是在ImageNet上预训练的VGG16;
文本编码器为BERT。
Multimodal Fusion
——多模态融合阶段旨在有效获取多模态表示,以充分捕获不同模态之间的复杂相互作用。
本文采用具有强大的实现全参数交互能力的双线性模型,作为实现多模态信息融合的重要组成部分。具体来说,将张量分解扩展到4个模态因子,即张量分解为核张量通过矩阵变换得到的结果:
在这种情况下,实体嵌入首先被投影到一个低维空间,然后与核心张量融合。之后,将通过逐元素相乘来分解核张量
,以将所有模态表示合并到一个统一的空间,从而进一步降低计算复杂度。
由于多模态双线性融合没有边界限制,最终预测结果产生的梯度智能隐式指导参数学习。为了解决这一问题,本文通过增加约束条件来限制同一实体不同模态表示之间的相关性,使相关性更强。进一步利用不同实体和模态之间的对比学习作为正则化的额外学习目标。
在对比学习设置中,将同一实体的不同模态表示对作为正样本,不同实体的表示对作为负样本,如Figure 3所示,对比学习的目标是限制负样本的距离大于正样本的距离,以增强多模态融合,即:
损失函数如下:
Contextual Relational Model
——上下文关系模型将三元组中的关系作为上下文信息进行打分,该模型可以被任何打分函数替代,如TransE。
由于KG的多样性和复杂性,本文认为提高参数的相互作用程度对更好地建模关系三元组是至关重要的。参数的相互作用程度是指每个参数与其他参数的计算比率。基于此,本文提出计算实体和关系嵌入之间的双线性外积来讲上下文信息合并到实体表示中。上下文关系模型利用关系在实体嵌入的转换矩阵中提供上下文,然后利用上下文转换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体之间的相似度。
Decision Fusion
通过联合学习和结合不同模态的预测来进一步利用互补性来缓解之前将不同模态表示映射到一个统一空间中的方法无法保留特定模态的知识的缺陷。
在多模态设置下,为每个模态分配不同的上下文关系模型,并利用他们的结果进行不同视角的训练,损失函数如下:
预测阶段,联合考虑每个模态和多模态的预测,总体预测如下: