EmbraceNet: A robust deep learning architecture for multimodal classification(论文阅读)

        这篇论文介绍了一种名为EmbraceNet的新型深度学习架构,用于多模态分类任务。EmbraceNet旨在处理多模态数据时不仅能够有效地建模跨模态关系,而且能够确保在部分数据或模态丢失时的鲁棒性。

原文地址:Redirecting

代码地址:GitHub - idearibosome/embracenet: Robust multimodal integration method implemented in PyTorch and TensorFlow

Introduction

        首先说明在现如今,许多机器学习任务应用多模态数据已经十分广泛,但是多模态数据在应用过程中由于各种传感器在现实情况的应用中会出现不可避免的出现一些信号连接断开以及传导不良等结果而造成的数据缺失等问题。为了解决这一问题,本文中提出的EmbraceNet架构使用Docker层以及Embrace层,两层结构以概率方式组合多种模态的表示,并且架构提供了与任何网络结构的良好兼容性,深入考虑不同模式之间的相关性,以及缺失数据的无缝处理。

Relate work

        对于当下多模态数据融合的三种模式进行说明:

            前融合(数据级融合)指通过空间对齐直接融合不同模态的原始传感器数据。

            深度融合(特征级融合)指通过级联或者元素相乘在特征空间中融合跨模态数据。

            后融合(目标级融合)指将各模态模型的预测结果进行融合,做出最终决策。(多模态融合的主导范式通常通过集成独立的视觉和听觉网络来融合信息

Model description

        虽然文中作者没有明确说明这个架构属于哪一种融合模型,但是我认为这是一个基于特征级融合以及后融合的架构,将不同模态的数据先经过相关的网络得到特征向量,然后对各模态的特征向量进行处理以及融合,最后通过最终网络得到最终决策。下图为该架构具体结构。

Docking layers

        EmbraceNet 将不同模态的独立网络模型的输出向量作为输入。每个网络模型可以对从相应传感器获取的数据进行预处理,并且可以是任何类型的网络结构,例如传统的多层感知器、基于CNN的深度学习架构、手工制作的特征向量,甚至是原始数据。

        模态可以具有不同的特征,从网络模型输出的向量的大小可以不同。因此,在聚合它们之前,EmbraceNet 将每个向量转换为可停靠向量,以便向量具有相同的大小。将输入向量经过一个线性层,将向量变成相同的大小:

 然后使用一个激活函数得到Docking layers 的输出。

d_{i}^{\left ( k \right )}=f_{a}\left ( z_{i}^{\left ( k \right )} \right )

Embracement layer

        从docking层获得m个向量,其中每个向量由c个值组成。在我们提出的模型的拥抱层中,这些向量被组合成由 c 值组成的单个向量,即所谓的"Embraced"向量。一个简单的解决方案是对向量进行逐元素求和,这很容易受到前面提到的部分可用数据的影响。相反,EmbraceNet 模型采用了基于多项式采样的复杂融合技术。

        首先使用一个多项式采用得到一个向量r_{i}= \left [ r_{i}^{1}, r_{i}^{2}, r_{i}^{3},...,r_{i}^{m} \right ] i= \left ( 1, 2, 3, ...,c \right )

        而其中p为一个概率分布p = [p1, p2, ..., pm]T 并且\sum p_{k}= 1,这样就能满足向量r中只有一个值为1,其余值为0。再将docking层的输出向量与r做元素级乘法,得到向量{d}'_{m}。然后将所有模态的{d}'_{m}按元素位置进行加和得到向量e。Embracement层的最终输出是从所有模态的数据中获得的,因此多模态信息最终被整合。并且可以通过控制概率分布去优化模态选择结果,通过调整概率向量 p中的值,可以控制每个模态对拥抱向量的贡献。如果某个模态的数据丢失,可以通过将该模态对应p_{k}的设置为0来排除其对拥抱向量的贡献。

        并且在Embracement层中的操作类似于dropout,它在训练过程中为每个模态的输出向量引入了随机性,有助于防止模型过拟合。

Optimizing the EmbraceNet architecture

        在EmbraceNet架构中提出了一个新的参数集合p,这些参数在EmbraceNet架构中用于控制模态选择过程,从而影响模型在处理缺失数据时的鲁棒性。通过调整这些概率值,可以优化模型在不同模态组合下的性能。

        为了展示优化方法的有效性,作者在MNIST和Fashion MNIST数据集上进行了实验。这些数据集被分割成左右两部分,作为双模态数据集。实验结果表明,通过调整 p的值,无论是在训练期间还是训练后,都可以显著提高模型在处理缺失数据时的性能。

上面为实验部分所使用的模型,卷积层(conv1和conv2)各有64个卷积单元。conv1后使用最大池化(pool)层。基于中间集成的网络连接全连接层的输出(conv2后f ull),每层512个神经元,并将其传递给最终的softmax层(f ull)。另一方面,基于 EmbraceNet 的网络将两个 conv2 层的输出传递给 c = 512 的 EmbraceNet 结构,然后传递给最终的 softmax层 (full)。

第一行为使用全连接层的错误率,第二行是使用EmbraceNet架构的错误率,第三行是在训练期间调整参数p通过随机选择某些模态的数据进行融合,类似于dropout机制,得到的错误率,第四行是在训练完成后,可以根据每个模态在训练数据上的表现来调整 p的值,以优化模型在测试阶段的性能得到的错误率。可以明显的看出EmbraceNet在只有左边数据以及只有右边数据的情况下优于一般模型。而在训练期间调整p的模型可以看出在只有左边数据以及只有右边数据的情况下优于基线模型,在训练完成之后调整p的模型,可以看出在有全部数据的情况下比较好,如果都调整的话,可以看出在任何情况下都优于基线模型。

Comparison with other multimodal fusion techniques

数据集:gas sensor arrays dataset(分类化学来源)

               OPPORTUNITY dataset(识别人类动作)

用于分类化学源的模型a、早期融合,b、决策融合, c、特征融合, d、紧凑多线性池, e、多模式自动编码器, f、EmbraceNet

各模型最终的F1分数

用于人类动作识别的模型a、早期融合,b、决策融合, c、特征融合, d、紧凑多线性池, e、多模式自动编码器, f、EmbraceNet

在a、运动模式以及b、手势识别的任务中的F1分数

可以看出EmbraceNet的结果都是优于其他模型的。

总结

这是一个具有较好兼容性以及鲁棒性的多模态数据融合的架构,并且能在一定程度上处理数据缺失的问题,具有正则化性能防止模型过拟合。

  • 34
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值