【论文翻译完整版】(Inverse Compositional Spatial Transformer Networks)

 

摘要:

目录

摘要:

1介绍

2有效的图像和对象对准

3空间变换网络

4逆成分STN

5实验

6结论


在本文中,我们建立了经典的Lucas & Kanade (LK)算法和新兴的空间变压器网络(STNs)的理论联系。由于STNs具有将对齐和分类结合在同一理论框架内的自然能力,因此视觉和学习团体对其很感兴趣。受LK算法逆成分(IC)的启发,我们提出了逆成分空间变压器网络(IC- stns)。我们证明IC-STNs比传统STNs具有更好的性能用更少的模型性能;特别地,我们在纯图像对准任务和联合对准/分类问题在现实问题上显示了优越的性能。

 

1介绍

最近在深度学习方面的快速发展使得通过卷积神经网络(CNNs)学习复杂函数成为可能,而CNNs已经在大量计算机视觉任务中实现了最先进的性能[9,17,4]。大多数网络通过以下方式学会容忍空间变化:(a)空间池层和/或(b)数据增强技术[16];然而,这些方法也有一些缺点。数据增强(即根据已知的噪声模型通过几何失真合成新的训练样本)可能是视觉学习系统中增加空间容忍度的最古老和最著名的策略。这是有问题的,因为它经常需要训练样本数量的指数增长,因此模型的能力需要去学习。空间池操作可以部分缓解这一问题,因为它们在网络架构中自然地编码空间不变性,并使用降采样来降低模型的能力。然而,他们有一个内在的有限范围的容忍几何变化,他们可以提供;此外,这种池化操作会破坏图像中的空间细节,而这些空间细节可能对后续任务的性能至关重。

另一种选择是让网络解决输入图像中的一些几何不对称问题,而不是设计一个网络来单独容忍空间变化[12,6]。然而,这种策略只有在能力和计算成本较低,但性能优于传统空间不变cnn的情况下才有意义。空间变压器网络(STNs)[7]是第一个值得注意的尝试,它整合了低容量和计算效率策略,以解决——而不是容忍——与经典的CNNs的不一致。Jaderberg等人提出了一种在神经网络中集成图像翘曲的新策略,并证明了这种操作是可微的,允许应用规范的反向传播到图像翘曲框架中。

在计算机视觉中,学习图像外观和几何失真之间的低容量关系并不是一个新问题。35年前,Lucas和Kanade (LK)[14]提出了梯度下降图像对齐的开创性算法。LK算法可以解释为由多个对准模块组成的前馈网络;具体来说,每个对齐模块都包含一个低容量的预测器(通常是线性的),用于预测相对图像外观产生的几何畸变,然后进行图像重采样/扭曲操作。然而,LK算法在应用上与STNs有根本的不同:图像/物体的对齐,而不是分类。

把应用放在一边,LK和STN框架共享非常相似的特征,但有一个重要的例外。在具有多个前馈对齐模块的STN中,将前一个对齐模块的输出图像直接送入下一个对齐模块。正如我们将在本文中阐明的那样,这是有问题的,因为它会随着几何预测层数量的增加而产生不必要的边界效果。LK算法没有这些问题;相反,它通过网络(而不是扭曲的图像)提供扭曲参数,这样网络中的每个后续对齐模块都会对原始输入源图像进行重新采样。此外,反向合成(IC)变种的LK算法[2]已证明,实现等效作用以组合更新形式重用相同的几何预测器进行对齐。

IC-LK算法的启发,我们提倡对STN框架进行改进扩展,该框架(a)通过网络传播翘角参数,而不是图像强度,以及(b)使用相同的几何预测器,可以重新应用于所有对齐模块。我们提出了逆合成空间变换网络(ICSTNs),并展示了它在各种任务(包括纯图像对齐和联合对齐/分类问题)上优于原始的空间变换网络的性能。我们对本文的组织如下:在第二节中,我们对有效的图像/目标对齐进行了概述;在第三节中,我们对空间变压器网络进行了概述。我们在第4节详细描述了我们提出的IC-STNs,并在第5节展示了针对不同应用的实验结果。最后,我们在第6节中得出结论。

 

2有效的图像和对象对准

  在本节中,我们将回顾有效和低容量的图像/对象对齐的名义方法。

2.1Lucas & Kanade算法

Lucas & Kanade (LK)算法[14]是解决图像和对象的密集对齐问题的流行方法。对于给定的几何偏差函数,以偏差参数p为参数,LK算法可以表示为图像空间中最小目标方差平方和(SSD)

其中I为源图像,T为要对齐的模板图像,∆p为估计的翘曲更新。这里,我们将I(p)表示为我以参数p变形的图像。LK算法假设外观与几何位移近似为线性关系;具体来说,采用一阶泰勒近似将(1)线性化为

 

 

因此通过p←p +∆p叠加更新翘曲参数,可视为准牛顿更新。∂I(p)∂p,被称为最陡下降图像,是图像梯度和预定义的雅可比矩阵的组合,图像梯度通常是通过有限差估计的。由于外形和几何之间的真实关系很少是线性的,所以必须迭代地估计和应用经纱更新(p,直到收敛为止。

使用扭曲参数的附加更新的规范LK公式的一个基本问题是,对于每一次迭代,∂I(p)/∂p必须在重新扭曲的图像上重新计算,这极大地影响了计算效率。贝克和马修斯[2]设计了一个计算效率的LK算法的变种,他们称为逆合成(IC)算法。IC-LK算法将(1)重新公式来预测对模板图像的变形更新,写成

 

从而得到线性化最小二乘目标为

最小二乘解为

上标†为Moore-Penrose伪逆算子。这是随后的逆组合更新p←p◦(∆p)−1,其中我们缩写的符号◦是由p参数化的翘曲函数的组成,和(∆p)−1是由∆p参数化的翘曲函数的参数。

 

(4)的解是线性回归的形式,更一般的表示为

式中,R为建立外观与几何之间线性关系的线性回归变量,b为偏置项。因此,LK和IC-LK可以解释为用于图像对齐的级联线性回归方法

结果表明,LK的IC形式与原形式是等效的;IC形式的优点在于其计算最小二乘目标中固定最陡下降图像∂T(0)∂p的效率。具体地说,它是静态评估模板映像在身份经T p = 0和保持不变的迭代,从而产生的线性回归量也是r .这给一个固定的一个重要理论概念证明预测几何可以成功更新中使用迭代图像/对象对齐策略,进一步减少不必要的模型的能力。

2.2。从数据中学习对齐

     更普遍的是,在已知翘曲位移分布的前提下,可以从数据中学习用于对齐的级联回归方法。一个值得关注的这种方法的例子是监督下降法(SDM)[19],它的目的是从数据中学习线性几何预测器{R,b}的系列。SDM的学习目标是

     

其中,是利用蒙特卡罗采样从已知的生成分布中提取的几何位移,M是为每幅图像综合创建的示例数。这里,图像外观I经常被图像的预定义特征提取函数(如SIFT[13]或HOG[3])代替。这个最小二乘目标通常通过附加正则化(例如,岭回归)来解决,以确保良好的矩阵条件。

SDM是按顺序学习的,即学习下一个线性模型的训练数据是从相同的生成分布中提取的,并通过之前学习的回归元进行应用。由于其简单性和跨各种对齐任务的有效性,这已经成为一种流行的方法,导致了类似框架的大量变体[15,1,11]。与LK和IC-LK算法一样,SDM也是利用多个低容量模型来建立外观与几何之间的非线性关系的一个例子。我们提请读者注意[11],以便LK和SDM之间建立更正式的联系。

人们普遍认为,如果消除了数据之间的不一致,计算机视觉问题可以更有效地解决。虽然SDM从数据中学习对齐,并保证每个应用线性模型后的最优解,但这种贪婪方式学习的对齐对于后续的任务,如分类,是否最优还不清楚。为了达到最终的优化目标,将模型拟合为深度神经网络,利用反向传播优化整个模型会更有利。

 

3空间变换网络

  在快速兴起的深度学习领域,随着可收集数据的激增,深度神经网络在各种视觉问题上取得了巨大的成功。然而,没有一种原则性的方法来解决给定数据的几何变化。最近提出的空间变换网络[7]使用可微模块对图像或特征图进行空间变换。它具有减少数据内部几何变化的效果,引起了深度学习界的高度关注。

  在前馈的意义上,一个空间变压器扭曲的图像条件的输入。这可能用数学公式写为

在此,非线性函数f被参数化为一个可学习的几何预测器(在原始论文中称为定位网络),它可以从输入图像预测翘曲参数。我们注意到,“网格生成器”和原始纸张的“采样器”可以组合成一个单一的弯曲函数。我们可以看到,在几何预测因子只有一个线性层的特殊情况下,f将由一个线性回归因子R和一个偏置项b组成,使得几何预测因子的形式等于(6)。这种见解巧妙地将STN和LK/SDM框架链接在一起。

图1给出了STNs的基本架构。STNs在转换预测可以学习的同时也显示了网格采样函数可以(子)可微,允许在端到端学习框架内反向传播方面非常有趣。

图1:空间变压器[7]网络模块。蓝色箭头表示外观信息传递,紫色箭头表示几何信息传递。黄色的三维梯形为几何预测器,其中包含了可学习的参数。

  尽管STNs与经典的对齐算法有相似之处,但与LK/SDM相比仍存在一些根本的缺陷。首先,它尝试用单一的几何预测器直接预测最优的几何变换,而没有利用多个低容量模型来实现分类前更有效的对齐。虽然已经证明可以在特征图之间插入多个空间变形器,但这种使用对提高性能的有效性还没有得到很好的理解。另外,从(8)中可以看出,输出图像后几何翘曲p的信息没有保留;当在输入源图像外部重新采样时,这会导致边界效应。关于这一部分的详细处理见第4.1节。

在这项工作中,我们的目标是通过理论连接LK算法来改进STNs。我们表明,采用LK/SDM等多种低容量模型来学习深度网络中的空间转换,会产生对后续任务的实质性改进。我们进一步证明了学习单一几何预测因子用于递归变换的有效性,并提出了逆组合空间变压器网络(IC-STNs),该网络在各种问题上都比原来的STN有显著改进。

 

图2:空间变形器对真实图像的边界效应。(a)原始图像,其中绿色方框表示裁剪区域。(b)裁剪后的图像作为空间变压器的输入。(c)放大变换:采样发生在输入图像的范围内。(d)(e)放大变换:丢弃输入图像外部的信息,引入边界效应(STNs),而几何保留(c-STNs)则不是这样。白色的点框表示从原始图像失真。

 

4逆成分STN

4.1几何保存

原始的空间变压器结构(图1)的主要缺点之一是输出图像仅从裁剪过的输入图像中提取;丢弃裁剪区域外的像素信息,引入边界效应。图2说明了这种现象

从图2(d)可以看出,在需要边界框外像素信息的缩放变换中,这种效果对于STNs是可见的。这是由于在空间变换之后没有保留几何信息。在迭代对齐的情况下,每次放大变换都会累积边界效应。虽然对于背景干净的图像来说这不是什么问题,但是对于真实的图像来说就有问题了。

然而,一系列空间变换可以用精确的表达式组合和描述。图3展示了一种改进的对齐模块,我们称之为组合STNs (c-STNs)。在这里,几何变换也是由一个几何预测器来预测的,但扭曲参数p被保持跟踪,组成,并通过网络而不是扭曲的图像。重要的是要注意,如果一个是合并一个级联的多个空间变压器,几何变压器是通过图像的多次重采样隐式组成的。我们主张这些转换能够并且应该被显式地定义和组合。与图1中的空间变压器模块不同,在p中保留了几何图形,而不是被吸收到输出图像中。此外,c-STNs允许重复连接,如图4所示,其中对warp的更新可以迭代地预测。这消除了边界效应,因为裁剪图像之外的像素信息也被保留,直到最终的变换。

图3:保留几何图形的可学习扭曲模块,称为c-STNs。通过网络传递变形参数而不是变形图像。

扭曲成分的衍生也可以用封闭形式在数学上表达。考虑输入和输出翘曲参数pin和 pout在图3。以仿射弯曲为例,参数p = [p1p2p3p4p5p6]>与齐次坐标下的变换矩阵有关

从扭曲组合的定义出发,通过对扭曲参数的变换矩阵进行关联

我们可以由此推出导数为

其中I是单位矩阵。这允许梯度反向传播到几何预测器中

 

  值得注意的是,∂pout/∂pin在(11)的表达式与残差网络[4,5]中非常相似,其中梯度包含单位矩阵I和“残差分量”。这表明,在预测的扭曲参数∆p较小的情况下,c-STNs的扭曲参数通常对梯度消失现象不敏感,可以大量重复扭曲/合成操作。

图4:迭代对齐框架的c-STNs的多次串联

4.2循环空间转化器

在LK算法的所有变体中,IC形式[2]具有一个非常特殊的特性,即在迭代过程中线性回归系数保持不变。最陡峭的下降图像∂T(0)/∂p在(5)中独立于输入图像和p的当前估计;因此,只需要计算一次。在模型容量方面,IC-LK与规范LK相比,进一步减少了必要的可学习参数,因为相同的回归因子可以重复使用,并且在良好的初始化条件下收敛。与规范LK和IC-LK的主要区别在于扭曲更新的∆p应该以逆形式组合应用。我们将读者重定向到[2]以获得对IC-LK的完整处理,这超出了本文的范围。

这启发我们提出了逆组合空间变压器网络(IC-STN)。IC-STN的递归模块如图5所示:扭曲参数p用∆p迭代更新,∆p是用相同的几何预测因子从当前的翘曲图像中预测出来的

这允许递归地预测输入图像上的空间变换。这可能是由于自然图像中像素强度在空间上的紧密接近:在近距离内像素之间存在高度的相关性。

在IC-LK算法中,预测的翘曲参数是反组合的。由于IC-STN几何预测器是在端到端学习框架中进行优化的,因此我们可以在不明确定义几何预测器的情况下将反演操作吸收到几何预测器中;换句话说,ICSTNs能够直接预测反演参数。在我们的实验中,我们发现显式地对预测的前向参数执行额外的逆操作的差异可以忽略不计,而隐式地预测逆参数更适合使用反向传播的端到端学习框架。我们将我们提出的方法命名为反向合成,然而ICLK是我们的灵感来源。

图5:提出的逆组合空间变压器网络(IC-STN)示意图。学习了相同的几何预测器来预测重复的空间变换,这些空间变换组合在一起使输入图像扭曲。

在实践中,IC-STNs可以通过将图5中的架构多次展开为c-STNs的形式(图4)来训练,在所有几何预测器上共享可学习的参数,以及如第4.1节所述的那样反向传播梯度。这将产生一个有效的几何预测器,可以在执行最终的扭曲操作之前多次应用,该操作适合随后的任务,如分类。

图6:平面图像对齐实验的图像和扰动训练样本的可视化。(a)原始图像,其中红色框表示groundtruth变形,黄色框表示示例生成的变形。(b)摄动图像的例子(在本例中,仿射扭曲的角度为7.5)。

表1:不同初始摄动程度下平面图像对准实验的测试误差。型号名称后面的数字表示在训练期间从IC-STN展开的扭曲操作的数量。

5实验

5.1平面图像对齐

首先,我们探讨IC-STN对单一图像平面对齐的有效性。我们从Caffe库[8]中获取了一个示例图像,并在手工标记的ground truth周围生成了具有仿affine扭曲的扰动图像,如图6所示。我们使用大小为50×50像素的图像样本。在地面真值盒的四角加上来自同一高斯分布的额外平移噪声后,再加上标准偏差偏差(以像素为单位)的i.i.d.高斯噪声,就产生了扰动盒,最后将盒子与初始翘曲参数p拟合。

为了证明迭代对齐在不同噪声量下的有效性,我们考虑了ic - stn,它由一个单一的可学习线性层和不同数量的学习循环变换组成。我们根据随机梯度下降的翘曲参数和批量100个动态生成的扰动训练样本之间的L2误差对所有网络进行优化。

测试误差如表1所示。从c-STN-1(相当于只展开了一次翘曲操作的IC-STN-1)可以看出,只有一个几何翘曲。

预测器直接预测最优几何变换的能力有限。在相同的模型容量下,利用几何预测器合并多个空间变换可获得更好的对齐性能。

图7显示了应用于已学习的对准模块的经纱操作次数的测试误差。我们可以看到,即使递归空间变换应用的次数比训练的次数多,误差也会持续下降,直到达到饱和点,这对于经典递归神经网络来说通常是不成立的。这意味着IC-STN能够捕获外观和几何形状之间的相关性,从而在已学习的成本表面上执行梯度下降,从而实现成功的对齐。

图7:训练后IC-STNs的评估,其中每条曲线上的点对应于训练期间展开的循环变换次数。

 

5.2 MNIST数字分类

在本节中,我们将演示IC-STNs如何用于联合对齐/分类任务。我们选择MNIST手写数字数据集[10],使用单应偏差噪声模型对图像的四角进行扰动,并使用高斯噪声对四角进行平移,标准差均为3.5像素。我们对所有网络进行200K次迭代,批量大小为100个随机生成的扰动样本。我们对分类子网络的学习率为0.01,对几何预测器的学习率为0.0001,因为我们发现几何预测器对大的变化很敏感。我们使用相同的翘曲噪声模型在测试集上评估分类精度。

我们将IC-STN与几种网络结构进行了比较,其中包括没有空间变换的基线CNN、Jaderberget al.的原始CNN和c-STNs。所有具有空间变换的网络使用相同的分类网络。结果以及架构细节列在表2中。我们可以看到,经典的cnn不能有效地处理大的空间变化与数据增加。如果数字可能被遮挡,然而,用几何变换的单一深度预测器来交换容量也会导致较差的性能。采用多变压器可显著提高分类精度;进一步比较cSTN-4(a)和IC-STN-4(b),我们发现IC-STNs与非复发性对应品相比,可以用较少的准确性换取较大的容量减少。

 

表2:扰动MNIST测试集的分类误差。非递归网络具有相似的层数和可学习参数,但不同的扭曲操作(粗体)。滤波器的维数用括号表示,其中绿色为几何预测因子(s),蓝色为后续分类网络的维数(P表示2×2 max-pooling操作)。以彩色观看效果最佳。

图8显示了IC-STNs如何学习分类的对齐方式。在许多手写体数字被遮挡的情况下,IC-STN能够自动扭曲图像并从原始图像中显示被遮挡的信息。对齐过程中还存在平滑的过渡,这与IC-STN学习的递归空间变换概念相吻合。此外,我们可以看到,由于4.1节中描述的边界效应,原始STN的结果变成了裁剪数字。

我们还通过对分类前的测试集外观取均值和方差来可视化最终总体对齐性能,如图9所示。原始STN的均值/方差结果变成了原始数字的缩小版本,减少了更好分类所需要的信息。从c-STN-1中,我们可以看出单一的几何预测器在直接预测几何变换方面效果不佳。在IC-STN中引入更多的翘曲操作,可以显著降低对齐样本间的方差。这些结果支持了这样一个事实,即消除数据中的空间变化对于提高后续任务的性能至关重要。

图8:单应性翘曲扰动下IC-STN-4(a)在MNIST测试集上的样本对齐结果。每列的第一行显示初始扰动;中间的三行说明了对齐过程(迭代1到3);最后第二行显示了输入分类网络之前的最终对齐。最后一行显示了与原始STN的对齐:裁剪的数字是边界效应的结果。

 

图9:测试集的10个类的对齐外观的平均值/方差(单应图摄动)。

 

5.3交通标志分类

在这里,我们展示IC-STNs如何应用于现实世界的分类问题,如交通标志识别。我们用德国交通标志识别基准[18]来评估我们提出的方法来自43个班在不同条件下拍摄的39209张训练图像和12630张测试图像。我们认为这是一个具有挑战性的任务,因为许多图像是用运动模糊和/或分辨率低至15×15像素。我们用5.2节中描述的单应性扭曲噪声模型对所有图像进行缩放,并生成大小为36×36像素的扰动样本。分类子网络学习率设置为0.001,几何预测器学习率设置为0.00001。

 

我们将控制模型容量设置为200K左右的可学习参数,并与MNIST实验进行类似的比较。表3显示了经过扰动的GTSRB测试集的分类误差。我们再次看到,通过学习重用相同的几何预测器,ICSTN的分类有了相当大的改进。

图10 IC-STN与分类网络之前的原始STN。IC-STNs能够从输入图像中恢复被遮挡的外观。尽管STN仍试图对受扰动的图像进行集中,但由于遮挡信息的缺失,使得其后续的分类性能下降。

我们还在图11中可视化了每个网络对齐后的平均外观,可以观察到,IC-STN的平均外观随着经线操作次数的增加而变得更清晰,这再次表明良好的对齐对后续目标任务至关重要。值得注意的是,并不是所有的交通标志都对齐到边界框内,例如,网络找到了放大图像的停车标志的最佳对齐方式,而不考虑八角形的背景形状。这说明在某些情况下,只需要符号形状内部的像素信息,就可以获得良好的分类对齐。

 

 

表3:扰动GTSRB测试集的分类错误。架构描述见表2。

6结论

在本文中,我们从理论上将Lucas & Kanade算法的核心思想与空间变压器网络联系起来。我们展示了通过对齐框架内的多重空间转换可以更有效地消除数据中的几何变化。我们提出了用于预测周期性空间变换的逆组合空间变压器网络,并与基线CNNs和原始STN相比,证明了优越的对齐和分类结果。

 

英文链接

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值