【论文速递】TPAMI-2022 用于多模式和多任务密集图像预测的信道交换网络

【论文原文】 Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction

【作者信息】 Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao

获取地址:Channel Exchanging Networks for Multimodal and Multitask Dense
Image Prediction | IEEE Journals & Magazine | IEEE Xplore

摘要:

多模态融合和多任务学习是机器学习中的两个重要课题。尽管取得了丰硕的进展,但解决这两个问题的现有方法仍然难以应对同样的挑战——在保持每个模态(相应任务)的特定模式的同时,整合跨模态(相应的任务)的公共信息仍然是一个难题。此外,虽然多模态融合和多任务学习实际上彼此密切相关,但以前很少在同一方法框架内进行研究。在本文中,我们提出了信道交换网络(CEN),它是自适应的、无参数的,更重要的是,它适用于多模式和多任务密集图像预测。CEN的核心是在不同模式的子网络之间自适应地交换信道。具体而言,信道交换过程由个体信道重要性自我引导,个体信道重要性由训练期间的批量归一化(BN)缩放因子的大小来测量。 对于密集图像预测的应用,CEN的有效性通过四种不同场景进行测试:多模态融合、循环多模态融合,多任务学习和多模态多任务学习。通过RGB-D数据进行语义分割和通过多域输入进行图像翻译的大量实验验证了CEN与现有方法相比的有效性。还进行了详细的消融研究,证明了我们提出的每个组件的优势。

【关键词】 多模态融合、多任务学习、通道交换、语义分割、图像到图像翻译

简介:

由于低成本传感器的日益普及,利用多个数据源进行分类或回归的多模态融合成为机器学习的核心问题之一。除了深度学习的成功之外,多模态融合最近通过引入多模态的端到端神经集成被指定为深度多模态融合,并且在语义分割、动作识别、视觉问题回答和许多其他中,与单峰范式相比,它表现出了显著的优势。多任务学习是机器学习中的另一个重要课题。它旨在寻求同时解决多个任务的模型,与独立学习每个任务的方法相比,它具有模型生成和数据效率的优势。与多模态融合类似,通过利用深度学习,多任务学习也从以前的浅方法发展到了深度变体。多任务学习的成功应用包括导航、机器人操纵等。

通常,密集图像预测可以是计算机视觉任务的集合,这些任务旨在对图像中的每个像素进行分类(例如,分割)或回归(例如,图像到图像的转换),即基于给定的输入像素产生逐像素输出。用于密集预测的学习管道通常期望捕获丰富的空间细节或者强语义,这也大大受益于多模式数据源或多任务联合训练。针对多模态融合和多任务学习,已经进行了针对密集图像预测的各种工作。

对于多模态融合,关于其融合方式的类型,现有方法通常分为基于聚合的融合、基于对齐的融合以及它们的混合。关于多任务学习,在深度学习的背景下,确定了两种当代技术:硬参数共享和软参数共享。尽管取得了丰硕的进展,但解决这两个问题的现有方法仍然难以应对同样的挑战——在保持每个模态的特定模式的同时,整合模态(任务)之间的公共信息仍然是困难的。

更具体地说,对于多模态融合,基于聚合的融合容易低估模态内传播,而基于对齐的融合由于仅通过训练对齐损失而导致信息交换较弱,因此大多提供无效的模态间融合。在多任务学习中也存在类似的问题。由于任务间知识共享和任务内信息处理之间的平衡不足,当前的硬/软参数共享方案可能容易受到不同任务之间的负转移问题的影响。当专注于密集图像预测时,多模态融合和多任务学习也可以被视为彼此的双重问题。多模态融合对应于多输入单输出问题,而多任务学习则相反,是单输入多输出公式。然而,以前的大多数文献都是分别研究这两个问题,而没有揭示它们的共同属性。

在本文中,我们提出了信道交换网络(CEN),它是自适应的、无参数的,适用于多模式和多任务密集图像预测。

为了统一,我们将多模态融合中的模态特定网络和多任务学习中的任务特定网络都称为子网络。为了实现不同模式/任务之间的消息传递,CEN自适应地在子网络之间交换信道。CEN的核心在于其受网络修剪启发的较小范数信息量较少的假设。 具体而言,我们利用批量归一化(BN)或实例归一化(IN)的缩放因子(即γ)作为每个相应信道的重要性度量,并用其他子网络的平均值替换与每个子网络的接近零因子相关的信道。

这种消息交换在确定何时交换时是自适应的,因此与传统的多模式和多任务学习方法相比,它能够在子网间知识共享和子网内信息处理之间实现更好的权衡。此外,信道交换操作本身是无参数的,使得CEN不易过度拟合,而例如,基于注意力的融合需要额外的参数来调整每个子网络的重要性。CEN的另一个特点是,除了所有子网络的BN层之外,编码器参数是彼此共享的。 除了压缩模型大小之外,我们在这里应用这个想法来服务于CEN的特定目的:通过使用专用BN,我们可以确定每个单独模态的信道重要性;通过共享卷积滤波器,不同模态之间的对应信道嵌入了相同的映射,从而更能够对模态公共统计进行建模。
CEN通常功能强大,能够解决图像密集预测中的四个不同问题:多模态融合、循环多模态融合,多任务学习和多模态多任务学习。对于多模态融合,我们在编码器侧进行信道交换,以允许不同输入模态之间的信息集成。
我们还设计了循环多模态融合,以在不同的生成流之间重用知识,这可以提高每个flow的性能。 作为自然扩展,信道交换可以应用于解码器侧或解码器和编码器两者,以交换用于多任务学习或多模式多任务学习的任务特定信息。

总之,我们的贡献如下:
  • 我们提出CEN用于消息融合,它是自适应的,无参数的。CEN的核心是将每个子网中与接近于零的BN或IN比例因子相关的信道替换为其他子网的平均值。

  • CEN通常功能强大,适用于多模态融合、循环多模态融合,多任务学习和多模态多任务学习。据我们所知,这是首次明确采用单一技术来解决多模态融合、多任务学习或两者,特别是在密集图像预测方面。

  • 通过RGB-D数据对语义分割和通过多域输入的图像翻译进行实验评估。结果表明,在比较合理的条件下,CEN算法的性能明显优于各种多模态融合方法和多任务学习方法。
    CEN展示

Fig. 1. An illustration of CEN

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值