【CEN2020】Deep Multimodal Fusion by Channel Exchanging

Deep Multimodal Fusion by Channel Exchanging

通过渠道交换进行深度多模态融合

文章地址:https://arxiv.org/abs/2011.05005
代码地址:https://github.com/yikaiw/CEN


摘要

  通过使用多个数据源进行分类或回归,深度多模态融合在各种应用中表现出比单模态对应的明显优势。然而,目前的方法,包括基于聚合和基于对齐的融合,仍然不足以平衡模式间融合和模式内处理之间的权衡,招致性能改进的瓶颈。为此,本文提出了通道交换网络(CEN),一个无参数的多模态融合框架,在不同模态的子网络之间动态地交换通道。具体来说,信道交换过程是由单个信道的重要性自我引导的,这个重要性是由训练期间的批量标准化(BN)缩放因子的大小来衡量的。这种交换过程的有效性也是通过共享卷积滤波器,但在不同的模式下保持独立的BN层来保证的,作为一个附加的好处,这使得我们的多模式架构几乎和单模式网络一样紧凑。通过RGB-D数据进行的语义分割和通过多领域输入进行的图像翻译的广泛实验验证了我们的CEN与目前最先进的方法相比的有效性。详细的消融研究也已经进行,这证明了我们提出的每个组件的优势。我们的代码可在https://github.com/yikaiw/CEN


1 导言

  在低成本传感器越来越多的鼓励下,利用从不同来源/结构获得的数据进行分类或回归的多模态融合已经成为机器学习的一个核心问题[4]。加入深度学习的成功,多模态融合最近被指定为深度多模态融合,通过引入多模态的端到端神经整合[38],它在语义分割[29, 45]、动作识别[14, 15, 44]、视觉问题回答[1, 23]和其他许多方面[3, 26, 52]表现出与单模态范式的显著优势。

  在深度多模态融合方面,已经做了很多工作[38]。就其融合方式而言,现有的方法一般分为基于聚合的融合基于对齐的融合以及它们的混合[4]。基于聚合的方法采用某种操作(如平均法[19]、连接法[35, 51]和自我注意法[45]),将多模态子网络合并为一个网络。而基于对齐的融合[9, 44, 47],则采用调节损失来对齐所有子网络的嵌入,同时保持每个子网络的完全传播。图1描述了这两种机制之间的区别。多模态融合的另一种分类方法可以指定为早期、中期和晚期融合,这取决于何时融合,这在早期的工作[2, 7, 18, 42]以及深度学习文献[4, 27, 28, 46]中已经讨论过。尽管取得了丰硕的成果,但在如何整合各模态的共同信息,同时保留各模态的特定模式方面,仍然是一个巨大的挑战。特别是,一旦多模态子网络被聚合,基于聚合的融合就很容易低估模态内的传播。相反,基于对齐的融合可以保持模式内的传播,但由于仅通过训练对齐损失来进行弱的信息交换,它总是提供无效的模式间融合。为了平衡模间融合和模内处理,目前的方法通常采用聚合和对齐融合的谨慎分层组合来提高性能,但要付出额外的计算和工程开销[12, 29, 51]。

图1:现有融合方法与我们的融合方法的简略比较。

目前的工作。我们提出了信道交换网络(CEN),它是无参数、自适应和有效的。CEN不象以前那样使用聚合或排列,而是动态地交换子网络之间的通道以实现融合(见图1(c))。CEN的核心在于它的smallernorm-less-informative假设,其灵感来自网络修剪[33, 49]。具体来说,我们利用批量正常化(Batch-Normalization,BN)[24]的缩放因子(即 γ γ γ)作为每个相应通道的重要性测量,并用其他模态的平均值替换与每个模态的接近零的因子相关的通道。这种信息交换是无参数和自适应的,因为它是由训练本身决定的缩放因子动态控制的。此外,我们只允许在每个模态的某个通道范围内进行定向通道交换,以保持模态内的处理。更多细节在第3.3节中提供。关于我们想法的有效性的必要理论也将在第3.5节中提出。

  CEN的另一个特点是,除了所有子网络的BN层之外的参数是相互共享的(第3.4节)。虽然这个想法以前在[8,48]中研究过,但我们在这里应用它来为CEN的特定目的服务:通过使用私有BN,如上面已经讨论过的,我们可以确定每个单独的模态的通道重要性;通过共享卷积滤波器,不同模态之间的相应通道被嵌入相同的映射,从而更有能力对模态共同的统计进行建模。这种设计进一步压缩了多模态的结构,使其几乎与单模态的结构一样小。

  我们在两项研究中评估了我们的CEN:通过RGB-D数据进行语义分割[41, 43]和通过多域输入进行图像翻译[50]。它表明,在公平的比较条件下,CEN产生的性能明显优于各种基于聚合或对齐的融合方法。特别是在语义分割方面,我们的CEN在两个流行的基准上明显优于最先进的方法。我们还进行了消融研究,以分离出每个提议的组件的好处。更多的规范将在第4节中提供。


2.相关工作

  我们介绍了深度多模态融合的方法,以及与我们论文相关的概念。

深度多模态融合。如前所述,深度多模态融合方法主要可分为基于聚合的融合和基于对齐的融合[4]。由于模式内处理的弱点,最近基于聚合的工作在进行特征融合的同时仍然保持所有模式的子网络[12, 30]。此外,[19]指出,融合的性能受选择哪一层融合的影响很大。基于对齐的融合方法通过应用相似度调节来对齐多模态特征,其中最大平均差异(MMD)[16]通常被用于测量。然而,仅仅关注统一整个分布可能会忽略每个领域/模式的特定模式[6, 44]。因此,[47]提供了一种可能缓解这一问题的方法,它将模态的共性特征关联起来,同时保持模态的特定信息。还有一部分多模态学习文献是基于调制的[11, 13, 46]。与这些类型的融合方法不同的是,我们提出了一种新的融合方法,即通过通道交换的方法,它可能同时享有对模式间充分互动和模式内学习的保证。

其他相关概念。在网络修剪[33, 49]和表示学习[40]中已经研究了使用BN比例因子来评估CNN通道的重要性的想法。此外,[33]对缩放因子执行 ℓ 1 {\ell _1} 1规范惩罚,并明确地修剪出符合稀疏标准的过滤器。在这里,我们将这个想法作为一个适应性工具来决定在哪里交换和融合。CBN[46]通过调制一个模态的BN,以另一个模态为条件,进行跨模态的信息传递,这显然与我们的方法不同,我们的方法是在不同模态之间直接交换通道进行融合。ShuffleNet[53]提出在多个组之间洗刷一部分信道,以便在轻量级网络中有效传播,这与我们交换信道进行信息融合的想法相似。虽然我们的论文的动机高度不同,但交换过程是由BN的缩放系数自行决定的,而不是ShuffleNet中的随机交换。


3 渠道交换网络

  本节将介绍我们的CEN,主要说明其两个基本组成部分:信道交换过程和子网络共享机制,然后进行必要的分析。


3.1 问题定义

  假设我们有 M M M个模态的第 i i i个输入数据, x ( i ) = { x m ( i ) ∈ R C × ( H × W ) } m = 1 M {x^{(i)}} = \{ x_m^{(i)} \in {R^{C \times (H \times W)}}\} _{m = 1}^M x(i)={xm(i)RC×(H×W)}m=1M,其中 C C C表示通道的数量, H H H W W W表示特征图的高度和宽度虽然我们的论文对图像数据特别感兴趣,但我们的方法仍然可以通用于其他领域;例如,我们可以为向量设置H = W = 1。。我们将 N N N定义为批次大小。深度多模态融合的目标是确定一个多层网络 f ( x ( i ) ) f({x^{(i)}}) f(x(i))(特别是本文中的CNN),其输出 y ^ ( i ) {{\hat y}^{(i)}} y^(i)有望尽可能地适合目标 y ( i ) {y^{(i)}} y(i)。这可以通过最小化经验损失来实现,即
min ⁡ f 1 N ∑ i = 1 N L ( y ^ ( i ) = f ( x ( i , y ( i ) ) ) (1) \mathop {\min }\limits_f {1 \over N}\sum\limits_{i = 1}^N {L\left( {{{\hat y}^{(i)}} = f({x^{(i}},{y^{(i)}})} \right)} \tag{1} fminN1i=1NL(y^(i)=f(x(i,y(i)))(1)
  我们现在介绍方程1的两种典型实例:

  • 基于聚合的融合首先用一个单独的子网络 f m {f_m} fm处理每个 m − t h m-th mth模态,然后通过一个聚合操作和一个全局映射结合它们的输出。在形式上,它通过以下方式计算输出
    y ^ ( i ) = f ( x ( i ) = h ( A g g ( f 1 ( x 1 ( i ) , … , f M ( x M ( i ) ) ) (2) {{\hat y}^{(i)}} = f({x^{(i}}) = h\left( {Agg\left( {{f_1}({x_1}^{(i}), \ldots ,{f_M}({x_M}^{(i})} \right)} \right) \tag{2} y^(i)=f(x(i)=h(Agg(f1(x1(i),,fM(xM(i)))(2)
    其中 h h h是全局网络,Agg是聚合函数。聚合可以通过平均化[19]、串联[51]和自我关注[45]来实现。所有的网络都通过最小化方程1进行优化。
  • 基于对齐的融合利用对齐损失来捕捉模式间的协调性,同时保持所有子网络的输出 f m f_m fm。形式上,它解决了
    min ⁡ f 1 : M 1 N ∑ i = 1 N L ( ∑ m = 1 M α m f m ( x m ( i ) , y ( i ) ) ) + A l i g f 1 : M ( x ( i ) ) ,        s . t .      ∑ m = 1 M α m = 1 (3) \mathop {\min }\limits_{{f_{1:M}}} {1 \over N}\sum\limits_{i = 1}^N {L\left( {\sum\limits_{m = 1}^M {{\alpha _m}{f_m}\left( {{x_m}^{\left( i \right)},{y^{(i)}}} \right)} } \right)} + Ali{g_{{f_{1:M}}}}({x^{(i)}}),\;\;\;s.t.\;\;\sum\limits_{m = 1}^M {{\alpha _m}} = 1 \tag{3} f1:MminN1i=1NL(m=1Mαmfm(xm(i),y(i)))+Aligf1:M(x(i)),s.t.m=1Mαm=1(3)
    其中,对齐 A l i g f 1 : M Alig_{f_{1:M}} Aligf1:M通常被指定为子网络的某些隐藏特征之间的最大平均差异(MMD)[16],而最终输出 ∑ m = 1 M α m f m ( x m ( i ) ) \sum\nolimits_{m = 1}^M {{\alpha _m}{f_m}\left( {x_m^{(i)}} \right)} m=1Mαmfm(xm(i))是与决策分数 α m α_m αm相关的 f m f_m fm集合,该集合由额外的softmax输出学习,以满足单纯的约束。

  正如在介绍中已经讨论过的,这两种融合方法都不足以确定融合模态共同信息和保留模态特定模式之间的权衡。相比之下,我们的CEN能够结合它们的优点,其细节将在下一小节阐明。


3.2 总体框架

  我们方法的整个优化目标是
min ⁡ f 1 : M 1 N ∑ i = 1 N L ( ∑ m = 1 M α m f m ( x ( i ) , y ( i ) ) ) + λ ∑ m = 1 M ∑ l = 1 L ∣ γ ^ m , l ∣ , s . t . ∑ m = 1 M α m = 1 (4) \mathop {\min }\limits_{{f_{1:M}}} {1 \over N}\sum\limits_{i = 1}^N {L\left( {\sum\limits_{m = 1}^M {{\alpha _m}{f_m}\left( {{x^{\left( i \right)}},{y^{(i)}}} \right)} } \right)} + \lambda \sum\limits_{m = 1}^M {\sum\limits_{l = 1}^L {\left| {{{\hat \gamma }_{m,l}}} \right|} } ,s.t.\sum\limits_{m = 1}^M {{\alpha _m}} = 1 \tag{4} f1:MminN1i=1NL(m=1Mαmfm(x(i),y(i)))+λm=1Ml=1L γ^m,l ,s.t.m=1Mαm=1(4)

其中,

  • 子网络 f m ( x ( i ) ) f_m(x^{(i)}) fm(x(i))(与对准融合方程3中的 f m ( x m ( i ) ) {{f_m}\left( {x_m^{(i)}} \right)} fm(xm(i))相反,通过信道交换融合多模态信息,我们将在§3.3中详细介绍;
  • 每个子网络配备BN层,包含第l层的缩放因子 γ m , l {\gamma _{m,l}} γm,l,我们将惩罚其一定部分的 ℓ 1 {\ell _1} 1准则 γ ^ m , l {{\hat \gamma }_{m,l}} γ^m,l的稀疏性,这将在§3.3中介绍。
  • 子网络 f m f_m fm除了BN层外,共享相同的参数,以方便通道交换以及进一步压缩结构,这在§3.4中介绍;
  • 集合输出的决策分数, α m α_m αm,由类似于基于对齐的方法的softmax输出来训练。

通过方程4的设计,我们进行了跨模态的无参数信息融合,同时保持每个子网络的自我传播,以便描述每个模态的特定统计。此外,我们的信道交换融合是自适应的,很容易嵌入到各个子网络中,具体细节在下文中给出。


3.3 通过比较BN缩放因子进行通道交换

  在介绍通道交换过程之前,我们首先回顾一下BN层[24],它被广泛用于深度学习中,以消除协变量偏移,提高泛化能力。我们用 x m , l x_{m,l} xm,l表示第m个子网络的第l层特征图,用 x m , l , c x_{m,l,c} xm,l,c表示第c个通道。BN层对 x m , l , c x_{m,l,c} xm,l,c进行归一化处理,然后进行仿射变换,即。

x m , l , c ′ = γ m , l , c x m , l , c − μ m , l , c α m , l , c 2 + ε + β m , l , c (5) x{'_{m,l,c}} = {\gamma _{m,l,c}}{{{x_{m,l,c}} - {\mu _{m,l,c}}} \over {\sqrt {\alpha _{m,l,c}^2 + \varepsilon } }} + {\beta _{m,l,c}} \tag{5} xm,l,c=γm,l,cαm,l,c2+ε xm,l,cμm,l,c+βm,l,c(5)
  其中, µ m , l , c µ_{m,l,c} µm,l,c σ m , l , c σ_{m,l,c} σm,l,c分别计算当前小批数据的所有像素位置(H和W)上所有激活的平均值和标准偏差; γ m , l , c {\gamma _{m,l,c}} γm,l,c β m , l , c {\beta _{m,l,c}} βm,l,c分别是可训练的缩放系数和偏移量; ε \varepsilon ε 是一个小常数,以避免被零除。第 ( l + 1 ) (l+1) l+1层以 { x m , l , c ′ } c {\{ x'_{m,l,c}\} _c} {xm,l,c}c为输入,经过一个非线性函数。

  公式5中的因子 γ m , l , c {\gamma _{m,l,c}} γm,l,c评估了训练期间输入 x m , l , c {x_{m,l,c}} xm,l,c和输出 x m , l , c ′ x'_{_{m,l,c}} xm,l,c之间的相关性。如果 γ m , l , c → 0 {\gamma _{m,l,c}} \to 0 γm,l,c0,损失的梯度将接近0,意味着 x m , l , c {x_{m,l,c}} xm,l,c将失去对最终预测的影响,从而成为多余的。此外,我们将在第3.5节中证明,考虑到方程4中的’1准则规定, γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0的状态有很大概率是有吸引力的。换句话说,一旦当前信道 x m , l , c {x_{m,l,c}} xm,l,c在某一训练步骤中由于 γ m , l , c → 0 {\gamma _{m,l,c}} \to 0 γm,l,c0而变得多余,那么从此以后它几乎就会这样了。

  因此,它促使我们用其他子网络的通道替换小比例因子的通道,因为这些通道有可能是多余的。为了做到这一点,我们推导出
x m , l , c ′ = { γ m , l , c x m , l , c − μ m , l , c σ m , l , c 2 + ε + β m , l , c , i f γ m , l , c > θ ; 1 M − 1 ∑ m ′ ≠ m M γ m ′ , l , c x m ′ , l , c − μ m ′ , l , c σ m ′ , l , c 2 + ε + β m ′ , l , c , e l s e ; (6) x'_{m,l,c}=\left\{ \begin{matrix}\gamma_{m,l,c} {x_{m,l,c}-\mu_{m,l,c}\over\sqrt {\sigma _{m,l,c}^2 + \varepsilon }}+\beta_{m,l,c}, \qquad if\gamma_{m,l,c}>\theta; \\ {1 \over {M - 1}}\sum\limits_{{\rm{m'}} \ne m}^M {{\gamma _{m',l,c}}{{{x_{m',l,c - }}{\mu _{m',l,c}}} \over {\sqrt {\sigma _{m',l,c}^2 + \varepsilon } }}} + {\beta _{m',l,c}}, \qquad else; \end{matrix} \right.\tag{6} xm,l,c= γm,l,cσm,l,c2+ε xm,l,cμm,l,c+βm,l,c,ifγm,l,c>θ;M11m=mMγm,l,cσm,l,c2+ε xm,l,cμm,l,c+βm,l,c,else;(6)
  其中,如果当前通道的缩放系数小于某个阈值θ≈0+,则用其他通道的平均值替换。简而言之,如果一个模态的一个通道对最终预测的影响很小,那么我们就用其他模态的平均值来代替它。在将每个模态送入非线性激活之前,我们对每个模态应用公式6,然后在下一层中进行卷积。梯度从被替换的通道中分离出来,并通过新的通道反向传播。


图2:我们的多模态融合策略的一个说明。缩放因子的稀疏性约束被应用于不同模态的不相干区域。如果一个特征图的缩放系数低于阈值,那么它将被同一位置的其他模态的特征图所取代。

  在我们的实现中,我们将整个通道分为M个相等的子部分,并且只在每个不同的子部分对不同的模式进行通道交换。我们用γm,l来表示允许被替换的缩放因子。我们进一步对方程4中的γm,l施加稀疏性约束以发现不必要的通道。由于方程6中的交换是一个只在通道的一个子部分内的定向过程,它不仅有望在其他M-1个子部分中保留模态特定的传播,而且还能避免无用的交换,因为γm0,l,c与γm,l,c不同,不在稀疏性约束范围内。图2说明了我们的信道交换过程。


3.4 独立BN的子网络共享

  在[8,48]中,我们知道利用私有BN层能够描述不同领域或模式的特征。在我们的方法中,具体来说,不同的比例因子(公式5)评估了不同模式的通道的重要性,它们应该被解耦。

  除了BN层之外,所有的子网络fm彼此共享所有的参数,包括卷积滤波器如果不同模态的输入通道是不同的(如RGB和深度),我们将把它们的尺寸扩大到与它们的最小公倍数(LCM)相同。。希望我们能进一步降低网络的复杂性,从而提高预测的泛化能力。相反,考虑到我们框架的具体设计,共享卷积滤波器能够捕捉到不同模式的共同模式,这是多模态融合的一个重要目的。在我们的实验中,我们在RGB-D图像或与相同图像内容相对应的其他领域的图像上进行多模态融合。在这种情况下,所有的模态都是同质的,因为它们只是同一输入的不同视图。因此,在不同的子网络之间共享参数仍然可以产生很好的表达能力。然而,当我们处理异质模态(如带有文本序列的图像)时,如果一直共享子网络的参数,就会阻碍子网络的表达能力,因此建议采用一种更灵巧的机制,其讨论留待未来探索。


3.5 分析

  定理1. 假设 { γ m , l , c } m , l , c {\{ {\gamma _{m,l,c}}\} _{m,l,c}} {γm,l,c}m,l,c是由公式4优化的任何多模态融合网络(无信道交换)的BN比例因子。那么,在训练期间, γ m , l , c {\gamma _{m,l,c}} γm,l,c被吸引到 γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0的概率(又称 γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0是局部最小值)等于 2 Φ ( λ ∣ ∂ L ∂ x m , l , c ‘ ∣ − 1 ) − 1 2\Phi \left( {\lambda {{\left| {{{\partial L} \over {\partial x_{_{m,l,c}}^`}}} \right|}^{ - 1}}} \right) - 1 (λ xm,l,cL 1)1,( λ λ λ其中 Φ Φ Φ导出了标准高斯的累积概率)。

  在实践中,特别是在接近收敛点时, ∂ L ∂ x m , l , c ‘ {{{\partial L} \over {\partial x_{_{m,l,c}}^`}}} xm,l,cL的大小通常非常接近于零,表明停留在 γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0附近的概率很大。换言之。当一个通道的缩放系数等于零时,这个通道在以后的训练过程中几乎成为多余的,这将由我们在附录中的实验来验证。因此,将 γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0的通道替换成其他通道(或其他任何东西),只会增强模型的可训练性。我们立即有以下推论,即推论1。如果方程4的最小值意味着 γ m , l , c = 0 {\gamma _{m,l,c}} = 0 γm,l,c=0,那么方程6的通道交换(假设没有跨模式的参数共享)只会减少训练损失,即 f 1 : M ‘ L ≤ min ⁡ f 1 : M _{f_{1:M}^`}L \le {\min _{{f_{1:M}}}} f1:MLminf1:M,给定充分表达的 f 1 : M ‘ {f_{1:M}^`} f1:M f 1 : M {{f_{1:M}}} f1:M分别表示有渠道交换和没有渠道交换的情况。


4 实验

  我们将CEN与现有的多模态融合方法在两个不同的任务上的表现进行对比:语义分割和图像到图像的翻译。这两个任务的框架都是编码器-解码器式的。请注意,在整个实验中,我们只在不同模态的编码器内进行多模态融合。我们的代码是在PyTorch[36]上编制的。


4.1 语义分割

数据集。我们在两个公共数据集NYUDv2[41]和SUN RGB-D[43]上评估我们的方法,这两个数据集将RGB和深度作为输入。关于NYUDv2,我们遵循标准设置,采用795张图片进行训练,654张图片进行测试,预测标准的40类[17]。SUN RGB-D是针对室内语义分割的最具挑战性的大规模基准之一,包含37个语义类别的10335张RGB-D图像。我们使用公开的训练-测试分割(5,285 vs 5,050)。

实施。我们认为RefineNet[32]/PSPNet[54]是我们的分割框架,其主干是由ResNet[20]从ImageNet数据集[39]预训练出来的。编码器和解码器的初始学习率分别设置为 5 × 1 0 − 4 5×10^{-4} 5×104 3 × 1 0 − 3 3×10^{-3} 3×103,在使用ResNet101/ResNet152的NYUDv2上,每100/150个历时(总历时300/450),在SUN RGB-D上,每20个历时(总历时60)减少一半。在这两个数据集上,小批量大小、动量和权重衰减分别被选为6、0.9和 1 0 − 5 10^{-5} 105。我们在公式4中设定 λ = 5 × 1 0 − 3 λ=5×10^{-3} λ=5×103,在公式6中设定阈值为 θ = 2 × 1 0 − 2 θ=2×10^{-2} θ=2×102。除非另有说明,我们采用多尺度策略[29, 32]进行测试。按照[32],我们采用平均IU和像素准确度以及平均准确度作为评价指标。完整的实施细节请参考我们的附录。

表1: 我们的CEN在NYUDv2上的不同版本的详细结果。所有的结果都是用单规模评价的骨干网RefineNet(ResNet101)获得的,用于测试。
在这里插入图片描述
每个建议组件的有效性表1总结了NYUDv2上CEN的不同变体的结果。我们有以下的观察。1. 与未共享的基线相比,共享卷积参数大大提升了性能,特别是在深度模式上(35.8 vs 38.4)。然而,如果我们额外地共享BN层,性能将遇到明显的下降。这一观察结果与我们在第3.4节中的分析是一致的,因为卷积滤波器和BN参数的作用不同。2. 在’1’规定下进行定向通道交换后,我们的模型在两种模式上都获得了巨大的改进,即在RGB上从46.0到49.7,在深度上从38.1到45.1,并最终将集合平均IU从47.6增加到51.1。因此,它验证了我们提出的机制在这个任务上的有效性。3. 请注意,信道交换只适用于每一层的某一部分(即双模式情况下的一半信道)。当我们去掉这个限制,允许所有的通道通过方程6进行交换时,准确性就会下降,我们猜测这是由于阻碍了特定模式的传播而造成的损害,如果所有的通道都参与到跨模式的融合中。

  为了进一步解释通道交换的作用,图3显示了RGB和深度的特征图,我们发现具有非零缩放因子的RGB通道主要描述纹理,而具有非零因子的深度通道则更关注边界;在这个意义上,进行通道交换可以更好地结合两种模态的互补特性。

表2:在NYUDv2上与三种典型的融合方法的比较,包括连接(concat),通过对齐(align)的融合,以及自我关注(self-att.) 所有结果都是用单规模评价的骨干网RefineNet(ResNet101)进行测试得到的。

与其他融合基线的比较表2报告了我们的CEN与两个基于聚合的方法的比较:连接[51]和自我注意[45],以及一个基于对齐的方法[47],使用相同的骨架。所有的基线都是在早期、中期、晚期和所有阶段的融合下实现的。此外,为了更公平地进行比较,所有的基线都是在与我们相同的设置下进行的(除了通道交换),即与私有BNs共享卷积,并保留所有子网络的传播。全部细节在附录中提供。它表明,在这两种设置下,我们的方法总是优于其他方法,平均改进幅度超过2%。我们还报告了用于融合的参数,例如串联中两种模式的聚合权重。虽然自我关注(全阶段)达到了与我们最接近的性能(49.1 vs 51.1),但它用于融合的参数相当大,而我们的融合是无参数的。

与SOTA的比较。我们将我们的方法与一系列最先进的方法进行对比。他们的结果是直接从以前的论文中复制的,否则由我们重新实施,附录中说明了全部规格。表3得出结论,我们的方法配备了PSPNet(ResNet152),在两个数据集的所有指标方面都取得了明显优于以前方法的新记录。特别是,在相同的主干条件下,我们的方法仍然比RDFNet[29]好得多。为了分离RefineNet在我们方法中的贡献,表3还提供了单模态的结果,在那里我们观察到多模态融合的明显优势。

表3:与SOTA方法在语义分割上的比较。

在这里插入图片描述

额外的消融研究。在这一部分,我们提供了一些关于NYUDv2的额外实验,其中有RefineNet(ResNet101)。结果是通过单尺度评价获得的。1. 由于 ℓ 1 {\ell _1} 1能够发现不必要的信道,并且是定理1的前提条件,天真地交换具有固定部分的信道(不使用 ℓ 1 {\ell _1} 1和阈值)不能达到良好的性能。例如,交换固定部分的30%的信道只能得到47.2的IoU。我们还发现,只在编码器的每个下采样阶段交换30%的通道,而不是在整个编码器的每个3×3卷积层交换(像我们的CEN),结果是48.6,比我们的CEN(51.1)低很多。2. 在表3中,我们提供了我们实现的CBN[46]的结果,通过对RGB的深度条件的BN进行调制。具有非共享和共享卷积参数的CBN的IoUs分别为48.3和48.9。3. 3. 直接对激活进行求和(放弃方程6中的第一项),结果是IoU为48.1,在与学习的软门求和时可以达到48.4。4. 4. 如果我们用连接融合块代替专家集合,结果将从51.1略微减少到50.8。5. 此外,我们尝试像ShuffleNet那样随机交换信道,或者直接丢弃不重要的信道而不交换信道,其IoU分别为46.8和47.5。上述所有的消减都支持我们架构的优化设计。


4.2 图像到图像的翻译

数据集。我们采用了Taskonomy[50],这是一个拥有400万张约600座建筑的室内场景图像的数据集。Taskonomy中的每张图像都有超过10种多模态表示,包括深度(euclidean/zbuffer)、阴影、法线、纹理、边缘、主曲率等。为了提高效率,我们抽取了1000张高质量的多模态图像用于训练,500张用于验证。

实施。继Pix2pix[25]之后,我们采用U-Net-256结构进行图像翻译,设置与[25]一致。BN的计算被实例归一化层(INs)所取代,而我们的方法(公式6)仍然适用。我们在编码器中采用单独的INs,并在解码器中共享所有其他参数,包括INs。我们将λ设置为 1 0 − 3 10^{-3} 103,以满足稀疏性约束,阈值θ设置为 1 0 − 2 10^{-2} 102。我们采用FID[21]和KID[5]作为评价指标,这将在我们的附录中介绍。

表4:图像与图像之间翻译的比较。评价指标为FID/KID($×10^{-2}$)。较低的值表明性能较好。

与其他融合基线的比较。在表4中,我们评估了两个具体的翻译案例的性能,即阴影+纹理→RGB和深度+法线→RGB,更多的例子在附录中。除了用于语义分割的三个基线(Concat、Self-attention、Align),我们还通过使用平均操作进行了额外的基于聚合的方法。所有的基线在4种不同的策略下进行融合:早期(在第1个信念层)、中期(第4个信念层)、后期(第8个信念层)和全层融合。如表4所示,我们的方法产生的FID/KID比其他方法低得多,这再次证明了我们提出的想法的好处。

表5:关于图像翻译的多模态融合(到RGB),模态从1到4。

考虑到更多的模式。我们现在测试我们的方法是否适用于超过2种模式的情况。为此,表5列出了通过输入深度、正常、纹理和阴影等1至4种模态的图像翻译成RGB的结果。可以看出,增加模态的数量可以持续改善性能,这表明我们的方法在各种情况下都有很大的应用潜力。


5 结论

  在这项工作中,我们提出了通道转换网络(CEN),一个用于深度多模态融合的新框架,它与现有的基于聚合和基于对齐的多模态融合有很大不同。其背后的动机是促进模态间的融合,同时保持足够的模态内处理。信道交换是由各个BN测量的信道重要性自我引导的,使我们的框架具有自适应性和紧凑性。广泛的评估验证了我们方法的有效性。


鸣谢

   这项工作得到了国家自然科学基金和德国研究基金会(NSFC 61621136008/DFG TRR-169)"跨模态学习 "II项目、腾讯人工智能实验室犀牛鸟访问学者计划(VS202006)和中国博士后科学基金(Grant No.2020M670337)的共同资助。


更广泛的影响

  这项研究能够有效地融合来自不同模式的互补信息,这有助于提高自动驾驶汽车和室内操纵机器人的性能,也使它们对环境条件(如光线、天气)更加坚固。此外,在我们的工作中,没有仔细设计现有方法中的分层融合策略,而是采用了一个全局标准来指导多模态融合,这使得模型在实际应用中更容易部署。将深度神经网络引入多模态融合的一个缺点是其可解释性不足。


References

[1] Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.: VQA: visual question answering. In: ICCV (2015)

[2] Atrey, P .K., Hossain, M.A., El Saddik, A., Kankanhalli, M.S.: Multimodal fusion for multimedia analysis: a survey. In: Multimedia systems (2010)

[3] Balntas, V ., Doumanoglou, A., Sahin, C., Sock, J., Kouskouridas, R., Kim, T.: Pose guided RGBD feature learning for 3d object pose estimation. In: ICCV (2017)

[4] Baltrusaitis, T., Ahuja, C., Morency, L.: Multimodal machine learning: A survey and taxonomy. In: IEEE Trans. PAMI (2019)

[5] Binkowski, M., Sutherland, D.J., Arbel, M., Gretton, A.: Demystifying MMD gans. In: ICLR (2018)

[6] Bousmalis, K., Trigeorgis, G., Silberman, N., Krishnan, D., Erhan, D.: Domain separation networks. In:NIPS (2016)

[7] Bruni, E., Tran, N.K., Baroni, M.: Multimodal distributional semantics. In: Journal of Artificial Intelligence Research (2014)

[8] Chang, W., Y ou, T., Seo, S., Kwak, S., Han, B.: Domain-specific batch normalization for unsupervised domain adaptation. In: CVPR (2019)

[9] Cheng, Y ., Cai, R., Li, Z., Zhao, X., Huang, K.: Locality-sensitive deconvolution networks with gated fusion for RGB-D indoor semantic segmentation. In: CVPR (2017)

[10] Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele,B.: The cityscapes dataset for semantic urban scene understanding. In: CVPR (2016)

[11] De Vries, H., Strub, F., Chandar, S., Pietquin, O., Larochelle, H., Courville, A.: Guesswhat?! visual object discovery through multi-modal dialogue. In: CVPR (2017)

[12] Du, D., Wang, L., Wang, H., Zhao, K., Wu, G.: Translate-to-recognize networks for RGB-D scene recognition. In: CVPR (2019)

[13] Dumoulin, V ., Perez, E., Schucher, N., Strub, F., Vries, H.d., Courville, A., Bengio, Y .: Feature-wise transformations. In: Distill (2018)

[14] Fan, L., Huang, W., Gan, C., Ermon, S., Gong, B., Huang, J.: End-to-end learning of motion representation for video understanding. In: CVPR (2018)

[15] Garcia, N.C., Morerio, P ., Murino, V .: Modality distillation with multiple stream networks for action recognition. In: ECCV (2018)

[16] Gretton, A., Borgwardt, K.M., Rasch, M.J., Schölkopf, B., Smola, A.J.: A kernel two-sample test. In:JMLR (2012)

[17] Gupta, S., Arbelaez, P ., Malik, J.: Perceptual organization and recognition of indoor scenes from RGB-D images. In: CVPR (2013)

[18] Hall, D.L., Llinas, J.: An introduction to multisensor data fusion. In: Proceedings of the IEEE (1997)

[19] Hazirbas, C., Ma, L., Domokos, C., Cremers, D.: Fusenet: Incorporating depth into semantic segmentation via fusion-based CNN architecture. In: ACCV (2016)

[20] He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016)

[21] Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained by a two time-scale update rule converge to a local nash equilibrium. In: NIPS (2017)

[22] Hu, X., Yang, K., Fei, L., Wang, K.: ACNET: attention based network to exploit complementary features for RGBD semantic segmentation. In: ICIP (2019)

[23] Ilievski, I., Feng, J.: Multimodal learning and reasoning for visual question answering. In: NIPS (2017)

[24] Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: ICML (2015)

[25] Isola, P ., Zhu, J., Zhou, T., Efros, A.A.: Image-to-image translation with conditional adversarial networks.In: CVPR (2017)

[26] Jin, W., Y ang, K., Barzilay, R., Jaakkola, T.S.: Learning multimodal graph-to-graph translation for molecule optimization. In: ICLR (2019)

[27] Kiela, D.: Deep embodiment: grounding semantics in perceptual modalities. In: Technical Report (2017)

[28] Lazaridou, A., Bruni, E., Baroni, M.: Is this a wampimuk? cross-modal mapping between distributional
semantics and the visual world. In: ACL (2014)

[29] Lee, S., Park, S., Hong, K.: Rdfnet: RGB-D multi-level residual feature fusion for indoor semantic
segmentation. In: ICCV (2017)

[30] Lin, D., Chen, G., Cohen-Or, D., Heng, P ., Huang, H.: Cascaded feature network for semantic segmentation
of RGB-D images. In: ICCV (2017)

[31] Lin, D., Zhang, R., Ji, Y ., Li, P ., Huang, H.: SCN: switchable context network for semantic segmentation
of RGB-D images. In: IEEE Trans. Cybern. (2020)

[32] Lin, G., Liu, F., Milan, A., Shen, C., Reid, I.: Refinenet: Multi-path refinement networks for dense
prediction. In: IEEE Trans. PAMI (2019)

[33] Liu, Z., Li, J., Shen, Z., Huang, G., Y an, S., Zhang, C.: Learning efficient convolutional networks through
network slimming. In: ICCV (2017)

[34] Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR
(2015)

[35] Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., Ng, A.Y .: Multimodal deep learning. In: ICML (2011)

[36] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein,N., Antiga, L., Desmaison, A., Köpf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S.,Steiner, B., Fang, L., Bai, J., Chintala, S.: Pytorch: An imperative style, high-performance deep learning library. In: NeurIPS (2019)

[37] Qi, X., Liao, R., Jia, J., Fidler, S., Urtasun, R.: 3d graph neural networks for RGBD semantic segmentation.In: ICCV (2017)

[38] Ramachandram, D., Taylor, G.W.: Deep multimodal learning: A survey on recent advances and trends. In:IEEE Signal Processing Magazine (2017)

[39] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A.,Bernstein, M.S., Berg, A.C., Li, F.: Imagenet large scale visual recognition challenge. In: IJCV (2015)

[40] Shao, W., Tang, S., Pan, X., Tan, P ., Wang, X., Luo, P .: Channel equilibrium networks for learning deep representation. In: ICML (2020)

[41] Silberman, N., Hoiem, D., Kohli, P ., Fergus, R.: Indoor segmentation and support inference from RGBD images. In: ECCV (2012)

[42] Snoek, C.G., Worring, M., Smeulders, A.W.: Early versus late fusion in semantic video analysis. In: ACM MM (2005)

[43] Song, S., Lichtenberg, S.P ., Xiao, J.: SUN RGB-D: A RGB-D scene understanding benchmark suite. In:CVPR (2015)

[44] Song, S., Liu, J., Li, Y ., Guo, Z.: Modality compensation network: Cross-modal adaptation for action recognition. In: IEEE Trans. Image Process. (2020)

[45] V alada, A., Mohan, R., Burgard, W.: Self-supervised model adaptation for multimodal semantic segmentation. In: IJCV (2020)

[46] de Vries, H., Strub, F., Mary, J., Larochelle, H., Pietquin, O., Courville, A.C.: Modulating early visual processing by language. In: NIPS (2017)

[47] Wang, J., Wang, Z., Tao, D., See, S., Wang, G.: Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks. In: ECCV (2016)

[48] Wang, Y ., Sun, F., Lu, M., Yao, A.: Learning deep multimodal feature representation with asymmetric multi-layer fusion. In: ACM MM (2020)

[49] Ye, J., Lu, X., Lin, Z., Wang, J.Z.: Rethinking the smaller-norm-less-informative assumption in channel pruning of convolution layers. In: ICLR (2018)

[50] Zamir, A.R., Sax, A., Shen, W.B., Guibas, L.J., Malik, J., Savarese, S.: Taskonomy: Disentangling task transfer learning. In: CVPR (2018)

[51] Zeng, J., Tong, Y ., Huang, Y ., Yan, Q., Sun, W., Chen, J., Wang, Y .: Deep surface normal estimation with hierarchical RGB-D fusion. In: CVPR (2019)

[52] Zhang, W., Zhou, H., Sun, S., Wang, Z., Shi, J., Loy, C.C.: Robust multi-modality multi-object tracking.In: ICCV (2019)

[53] Zhang, X., Zhou, X., Lin, M., Sun, J.: Shufflenet: An extremely efficient convolutional neural network for mobile devices. In: CVPR (2018)

[54] Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In: CVPR (2017)

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值