论文笔记:IMF: Interactive Multimodal Fusion Model for Link Prediction

论文来源:WWW 2023

论文地址:https://dl.acm.org/doi/pdf/10.1145/3543507.3583554

论文代码: GitHub - HestiaSky/IMF-Pytorch


Abstract

最近一些研究将多模态信息引入到链接预测中,但是这些方法是分别利用多模态信息的,忽略了不同模态之间的复杂交互。 为了更好地建模模态间的信息,引入一种交互式多模态融合模型,整合不同模态间的知识。通过两阶段式多模态融合框架来保存特定模态的知识,并利用不同模态之间的交互。多模态融合模块没有将不同模态投影到一个统一的向量空间,而是限制了不同模态的独立表示,同时利用双线性池化进行融合,并将对比学习作为额外的约束。此外,决策融合模块在所有模态预测的上提供学习到的加权平均,以更好地整合不同模态的互补性。

Introduction

之前的研究局限于将多模态数据投射到一个统一的向量空间中,以捕获各模态之间的共性,导致可能无法保存每个模态中的特定信息,因此不能有效地模拟模态间复杂的相互作用,以捕获共性。

为了解决上述问题,本文倾向于全面的学习知识,而非单独学习。然而,由于从不同模态学习到的知识是多样且复杂的,因此有效整合多模态信息具有很大的挑战。本文提出一种新的交互式多模态融合(IMF)模块,用于多模态知识图谱链接预测。

IMF模块可以在各模态中分别学习知识,并通过两阶段融合来联合建模不用模态之间复杂的相互作用。在多模态融合阶段,利用一个双线性融合机制,通过对比学习来捕获多模态特征之间的复杂相互作用,对于基础的链接预测模型,利用关系信息作为上下文对三元组进行排序,作为每个模态中的预测。在最终的决策融合阶段,整合来自不同模态的预测,并利用互补信息来进行最终的预测。

Methodology

如Figure 2所示,IMF包括4个关键部分:特定模态编码器、多模态融合模块、上下文关系模型、和决策融合模块。

Modality-Specific Encoders

——提取结构、视觉和文本特征,作为多模态融合阶段的输入

 用于不同模态的预训练编码器,在训练过程中没有进行微调,且IMF是一个通用框架,可以直接用其他最新的编码器替代,或添加新模态的编码器。

结构编码器使用的是具有TransE损失的图注意力网络;

视觉编码器使用的是在ImageNet上预训练的VGG16;

文本编码器为BERT。

Multimodal Fusion

 ——多模态融合阶段旨在有效获取多模态表示,以充分捕获不同模态之间的复杂相互作用。

本文采用具有强大的实现全参数交互能力的双线性模型,作为实现多模态信息融合的重要组成部分。具体来说,将张量分解扩展到4个模态因子,即张量分解为核张量通过矩阵变换得到的结果:

在这种情况下,实体嵌入首先被投影到一个低维空间,然后与核心张量\mathcal{P}_c融合。之后,将通过逐元素相乘来分解核张量\mathcal{P}_c,以将所有模态表示合并到一个统一的空间,从而进一步降低计算复杂度。

 由于多模态双线性融合没有边界限制,最终预测结果产生的梯度智能隐式指导参数学习。为了解决这一问题,本文通过增加约束条件来限制同一实体不同模态表示之间的相关性,使相关性更强。进一步利用不同实体和模态之间的对比学习作为正则化的额外学习目标。

在对比学习设置中,将同一实体的不同模态表示对作为正样本,不同实体的表示对作为负样本,如Figure 3所示,对比学习的目标是限制负样本的距离大于正样本的距离,以增强多模态融合,即:

 损失函数如下:

Contextual Relational Model 

 ——上下文关系模型将三元组中的关系作为上下文信息进行打分,该模型可以被任何打分函数替代,如TransE。

由于KG的多样性和复杂性,本文认为提高参数的相互作用程度对更好地建模关系三元组是至关重要的。参数的相互作用程度是指每个参数与其他参数的计算比率。基于此,本文提出计算实体和关系嵌入之间的双线性外积来讲上下文信息合并到实体表示中。上下文关系模型利用关系在实体嵌入的转换矩阵中提供上下文,然后利用上下文转换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体之间的相似度。

Decision Fusion 

 通过联合学习和结合不同模态的预测来进一步利用互补性来缓解之前将不同模态表示映射到一个统一空间中的方法无法保留特定模态的知识的缺陷。

在多模态设置下,为每个模态分配不同的上下文关系模型,并利用他们的结果进行不同视角的训练,损失函数如下:

预测阶段,联合考虑每个模态和多模态的预测,总体预测如下:

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值