对这篇文章的理解可以看点这个链接。下面只是粗浅的翻译。
0 摘要
卷积神经网络(CNN)本质上等同于translation。 嵌入其他形式的equivariance的工作仅集中在 rotation上。我们通过Polar Transformer Network(PTN)扩展了CNN中equivariance的概念。 PTN结合了STN和正则坐标表示(canonical coordinate representations)的思想。结果是网络对于平移保持invariant,对旋转和比例保持equivariant。在旋转MNIST和新引入的SIM2MNIST数据集上,PTN达到了最先进的水平,这是一种通过增加杂波和扰动数字与平移、旋转和缩放而获得的MNIST变化。 PTN的思想可以扩展到3D,我们通过圆柱变压器网络(Cylindrical Transformer Network)来演示。
1 Intro
无论是在全局模式还是局部特征层面, 对(in/equi)variant性质的追求与计算机视觉和模式识别本身的领域一样古老。“手工制作”方法中最先进的是SIFT。这些这些检测器/描述符识别区域的内在尺度或旋转,并产生一个等变量描述符,它被归一化为尺度和/或旋转不变性。这些方法的负担在于实现等方差所需的轨道计算中。这种有动机的可控滤波可确保从有限数量的滤波器响应中插值变换滤波器响应。证明了高斯导数旋转的可操纵性,并扩展到可移动金字塔的比例和平移。Perona提出了使用轨道和SVD创建滤波器基础的方法,同时,Segman证明了对于某些类型的变换,存在规范的坐标,其中输入的变形表现为输出的平移。继这项工作之后,Nordberg&Granlund和HelOr&Teo,Teo&Hel-Or提出了一种在给出变换的Lie生成器的情况下计算等变空间基础的方法。 最近,Sifre&Mallat提出了散射变换,该变换提供了平移,缩放和旋转不变的表示形式。
当前的共识是,应该学习表述(representations)而不是设计(designed)。 现在,教科书中已经介绍了通过卷积实现平移的Equivariance以及通过pooling实现对局部变形的invariance,但是实现equivariance的更普遍的变形方法仍在发展中。 目前主要的工作有:1.与SIFT相似的STN,它学会了规范的姿态,并通过warping产生不变的表示;2.着力于限制卷积滤波器filters的结构;3.使用滤波器轨道(filter orbit)对特定变换组施加equivariance。
本文提出了极变网络(PTN),它结合了STN和正则坐标表示的思想,实现了对平移、旋转和膨胀的equivariance。这个包括了三个stage的网络学习识别对象中心,然后将输入转换为对数极坐标。 在这个坐标系中,平面卷积对应于旋转和尺度上的群卷积(group-convolutions)。PTN产生与旋转和扩张相等的表示,不需要具有挑战性的STN参数回归。通过捕获任意精度的旋转和扩张,我们将CNN中的等方差概念扩展到谐波网络(Worrall等人,2016)和群卷积(Cohen&Welling,2016b)之外。 但是,与STN相似,PTN仅容纳整体变形。
我们介绍了旋转MNIST和SIM2MNIST的最新性能。 总结我们的贡献:
- 我们开发了一种CNN架构,能够学习对平移保持invariant,对旋转和膨胀保持equivariant的图像表达。
- 我们提出了polar transformation模块,它执行一个可微的对数极变换,可以进行反向传播训练。 变换原点是一个潜变量(latent variable)。
- 我们展示了如何通过完全卷积网络预测作为单通道热图质心的极地变换原点的学习方法。
2 相关工作
Nordberg&Granlund(1996)提出了最早的等变特征提取方案之一,他建议对复角度调制滤波器的2D旋转进行离散采样。大约在同一时间,图像和光学处理界发现梅林变换是傅里叶变换的一种修正(Zwicke&Kiss,1983;Casasent&Psaltis,1976)。Fourier-Mellin变换与旋转和尺度等变,而其模不变。
在80年代和90年代,积分变换的不变性是通过基于单参数变换(Ferraro&Caelli,1988)并推广到仿射群的Abelian子群(Segman et al.,1992)的方法发展起来的。
与(in/eq)variance工作密切相关的是在可操纵性中工作,即利用有限滤波器基的响应对任何组动作的响应进行插值。一个精确的可操纵性框架始于弗里曼等人。(1991),其中高斯导数的旋转可转向性被显式计算。它被扩展到可移动金字塔(Simoncelli等人,1992),它处理旋转和缩放。本文提出了一种利用变换轨道和SVD学习图像变形的低维表示来逼近可操纵性的方法。
Teo&Hel或引入了Lie生成器和方向性方法的统一,他们使用SVD来减少给定变换组的基函数数目。Teo和Hel-Or提出了最广泛的可操纵性框架,并提出了非交换群的第一种方法,首先从最大交换子群的精确可操纵性和剩余子群的增量控制开始。Cohen&Welling,Jacobsen最近结合了方向性和可学习滤波器。
最新的等变表示的“手工制作”方法是散射变换(Sifre&Mallat,2013),它由旋转和扩张的小波组成。与SIFT(Lowe,2004)类似,这种方法依赖于锚定点的等变性(例如,(平移)空间中过滤响应的最大值)。在每次卷积后通过模运算得到平移不变性。最终的散射系数对平移不变性,对局部旋转和尺度等变。
Laptev等人通过汇集在输入轨道上计算的特征地图来实现变换不变性,因为它需要对每个轨道元素进行前向和后向传递,所以缩放效果较差。
在CNNs的背景下,实现等变的方法分为两大脉络。在第一种方法中,通过约束滤波器结构来获得等方差,类似于基于李生成器的方法。谐波网络使用从复谐波中导出的滤波器来实现旋转和平移等变。第二种方法需要使用本身是等变的滤波轨道来获得群等变。Cohen&Welling用一个学习滤波器的轨道卷积,证明了群卷积的等变性和在校正和合并的情况下保持旋转等变性。Dieleman等人。分别处理图像轨道的元素,并使用输出集进行分类。Gens&Domingos生成有限多参数群的映射,Zhou等人和Marcos等人。利用旋转滤波器轨道生成有向特征映射和旋转不变特征,Lenc&Vedaldi提出了一种变换层,它通过先置换再通过线性滤波器变换来充当群卷积。
我们的方法,PTN,类似于第二条发展脉络。我们实现了全局旋转等变,并将CNN等变的概念扩展到包括标度。PTN采用对数极坐标,通过平移卷积实现旋转膨胀群卷积,假设像STN一样估计图像中心。与我们的方法最相关的是Henriques&Vedaldi,它通过将输入扭曲到一个固定的网格来实现等变,而不需要学习参数。
当从三维物体中学习特征时,变换不变性通常是通过在训练和/或测试过程中通过输入的转换版本来扩充训练数据,或者在转换后的版本上共享。Sedaghat等人指出,多任务方法,即预测方向和类别,可以提高分类性能。在我们对三维物体分类的扩展中,我们通过将输入转换为关于一个预测轴的柱坐标,明确地学习与一系列平行轴的旋转相等的表示。
3 理论背景
这一部分分为两部分,第一部分回顾了equivariance和group convolutions。第二个例子通过二维相似变换组——SIM 2,给出了群卷积的等变性(equivariance)的一个显式例子,SIM(2)由平移、膨胀和旋转组成。将SIM(2)重新参数化为正则坐标,允许使用平移卷积应用SIM(2)群卷积。
3.1 GROUP EQUIVARIANCE
等变表示非常受欢迎,因为它们以可预测的方式编码类和变形信息。
G
G
G是一组变换,
L
g
I
L_gI
LgI代表某个属于
G
G
G的变换
g
g
g作用在图
I
I
I上。映射
Φ
:
E
→
F
\Phi :E \to F
Φ:E→F对于group action
L
g
(
g
∈
G
)
{L_g}\left( {g \in G} \right)
Lg(g∈G)是equivariant的,若
Φ
(
L
g
I
)
=
L
g
′
(
Φ
(
I
)
)
\Phi \left( {{L_g}I} \right) = {L'_g}\left( {\Phi \left( I \right)} \right)
Φ(LgI)=Lg′(Φ(I))
其中
L
g
L_g
Lg和
L
g
′
L'_g
Lg′分别对应与
g
g
g在
E
E
E和
F
F
F上的应用,且满足
L
g
h
=
L
g
L
h
{L_{gh}} = {L_g}{L_h}
Lgh=LgLh。 invariance是equivariance的特例,当
L
g
′
L'_g
Lg′是恒等变换的时候成立。在图像分类和CNNs的背景下,
g
∈
G
g \in G
g∈G可以看做是图像变形,
Φ
\Phi
Φ可以看做是将图像映射到feature map。
CNN的固有平移equivariance与卷积核无关,在输出响应输入平移的相应平移中是明显的。对于其他种类的形变的equivariance可以通过应用group-convolution来实现(群卷积是一种更一般的平移卷积)。让
f
(
g
)
f\left( g \right)
f(g)和
f
(
g
)
f\left( g \right)
f(g)是
G
G
G上的实值函数,且满足
L
h
f
(
g
)
=
f
(
h
−
1
g
)
{L_h}f\left( g \right) = f\left( {{h^{ - 1}}g} \right)
Lhf(g)=f(h−1g)。group-convolution被Kyatkin & Chirikjian定义为:
对定义的轻微修改是必要的,因为在第一个CNN层中,该group操作的对象是图像。因此group-convolution reduce to 平移卷积(translational convolution),当
G
G
G是以加法为group operator的在
R
n
R^n
Rn中的平移。
group-convolution需要一个group拥有可积性,并确定适当的度量
d
g
dg
dg。 可以证明,给定测度dg,group-convolution总是group equivariant的:
这被描述为响应输入变形的equivariant representation表示。
3.2 EQUIVARIANCE IN SIM(2)
SIM(2)代表二维相似变换组。一个相似变换,
ρ
∈
S
I
M
(
2
)
\rho \in SIM\left( 2 \right)
ρ∈SIM(2),作用在一个点
x
∈
R
2
x \in {R^2}
x∈R2时,
其中
S
O
(
2
)
SO\left( 2 \right)
SO(2)代表旋转组。为了利用经典CNNs中的标准平面卷积,我们将
ρ
∈
S
I
M
(
2
)
\rho \in SIM\left( 2 \right)
ρ∈SIM(2)分解为一个平移变换,一个扩张旋转变换(dilated rotation)
r
∈
S
O
(
2
)
×
R
+
r \in SO\left( 2 \right) \times {R^ + }
r∈SO(2)×R+。
通过学习扩张旋转的中心,相应地移动原始图像,然后将图像转换为正则坐标,可以实现SIM(2)的equivariance。在这个重参数化(reparameterization)过程中,标准平移卷积等效于扩张旋转群卷积。
原点预测器是STN在全局平移预测中的应用,它以输出的质心作为输入的原点。
图像变换
L
t
I
=
I
(
t
−
t
0
)
{L_t}I = I\left( {t - {t_0}} \right)
LtI=I(t−t0)会将SIM(2) ruduce为扩张旋转,如果
t
0
{t_0}
t0代表了真是的位移。中心化后,我们将在原图$
I
(
t
−
t
0
)
I\left( {t - {t_0}} \right)
I(t−t0)进行
S
O
(
2
)
×
R
+
SO\left( 2 \right) \times {R^ + }
SO(2)×R+的卷积:
后续层的feature map
f
f
f
其中
r
,
s
∈
S
O
(
2
)
×
R
+
r,s \in SO\left( 2 \right) \times {R^ + }
r,s∈SO(2)×R+。我们利用交换李群的正则坐标来计算这个卷积。中心化的图像
I
0
(
x
,
y
)
1
{I_0}{\left( {x,y} \right)^1}
I0(x,y)1被转换为对数极坐标,为了记号便利,
I
(
e
ξ
cos
(
θ
)
,
e
ξ
sin
(
θ
)
)
I\left( {{e^\xi }\cos \left( \theta \right),{e^\xi }\sin \left( \theta \right)} \right)
I(eξcos(θ),eξsin(θ))因此被写作
λ
(
ξ
,
θ
)
\lambda \left( {\xi ,\theta } \right)
λ(ξ,θ),其中
(
ξ
,
θ
)
∈
S
O
(
2
)
×
R
+
\left( {\xi ,\theta } \right)\in SO\left( 2\right) \times {R^+}
(ξ,θ)∈SO(2)×R+。图2(右图)使用正则坐标表示扩张旋转等变表示对输入变形的响应。
图2:左:SO2中的群卷积。左最列中的图像相差90◦旋转,滤波器显示在顶部行。应用旋转群卷积和任意滤波结果可以得到等变表示。滤波器轨道(从0到360°旋转)和图像的内积分别用蓝色表示顶部图像,红色表示底部图像。观察滤波器响应如何偏移90°。右:
S
O
(
2
)
×
R
+
SO\left( 2\right) \times {R^+}
SO(2)×R+中的群卷积。最左边列中的图像旋转π/4,缩放比例为1.2。仔细考虑得到的热图会发现与输入图像的变形相对应的偏移。
在正则坐标中,
s
−
1
r
=
ξ
r
−
ξ
,
θ
r
−
θ
{s^{ - 1}}r = {\xi _r} - \xi ,{\theta _r} - \theta
s−1r=ξr−ξ,θr−θ,且group-convolution可以表示并有效地实现为平面卷积。
综上所述,我们(1)构建一个平移卷积网络,(2)取最后一层的质心,(3)相应地移动原始图像,(4)转换为对数极坐标,(5)应用第二个平移卷积网络。结果是一个特征映射,与围绕原点展开的旋转相同。
4 结构
PTN由以PT(polar transformer)模块连接的两个主要部件组成。第一部分是极原点预测器,第二部分是分类器(传统的完全卷积网络)。该网络的组成部分是一个3×3×K的卷积层,然后是batch
normalization,再通过跨步卷积进行ReLU和偶尔的子采样。我们将这个构建块简单地称为block。图3显示了体系结构。
图3:网络架构。输入图像通过一个完全卷积的网络,即极坐标原点预测器,它输出一个热图。热图的质心(两个坐标)和输入图像一起进入极坐标变换器模块,该模块在输入坐标处执行极坐标变换。所得到的极坐标表示相对于原始目标位置是不变的;旋转和膨胀现在是移位的,它们由传统的分类器CNN进行等变处理。
4.1 POLAR ORIGIN PREDICTOR(极坐标原点预测)
极坐标原点预测器对原始图像进行操作,由一系列块组成,然后是1×1卷积。输出的是一个单通道特征映射,其质心作为极坐标变换的原点。
训练神经网络来预测图像中的坐标存在一些困难。一些方法(Toshev&Szegedy,2014)试图使用完全连接的层直接回归坐标,但成功率有限。更好的选择是预测热图(Tompson等人,2014年;Newell等人,2016年),并采用他们的argmax。然而,这可能是个问题,因为除了一个点,反推梯度都是零,这会阻碍学习。
热图预测的常用方法是根据一些实际情况评估损失。在这种方法中,argmax梯度问题可以通过监督来避免。在PTN中,输出坐标的梯度必须相对于热图取,因为极坐标原点未知,必须学习。通过使用热图的质心作为极坐标原点,可以避免使用argmax。质心相对于热图的梯度是恒定的,对于所有点都是非零的,这使得学习成为可能。
4.2 POLAR TRANSFORMER MODULE(极坐标转换器模块)
PT模块以原点预测和图像作为输入,输出输入的对数极表示。该模块使用与STN相同的可微图像采样技术,它允许输出坐标
V
i
V_i
Vi以输入图像和采样点坐标
(
x
i
s
,
y
i
s
)
\left( {x_i^s,y_i^s} \right)
(xis,yis)的形式表达。源样本点和目标规则网格
(
x
i
t
,
y
i
t
)
\left( {x_i^t,y_i^t} \right)
(xit,yit)的对数极变换是:
其中
(
x
0
,
y
0
)
\left( {{x_0},{y_0}} \right)
(x0,y0)是原点,
W
,
H
W,H
W,H是输出的宽和高,
r
r
r是距离原点的最大距离,我们在实验中设置
r
=
0.5
H
2
+
W
2
r = 0.5\sqrt {{H^2} + {W^2}}
r=0.5H2+W2。
4.3 WRAP-AROUND PADDING(环绕填充)
为了保持特征图的分辨率,大多数CNN实现使用零填充。这对于极坐标表示并不理想,因为它是关于角轴的周期性的。输入的旋转会导致输出的垂直移动,在边界处换行;因此,最上面和最下面的行的标识是最合适的。这是通过垂直方向上的环绕填充来实现的尺寸。尺寸要素图的最上面一行使用最下面的行填充,反之亦然。在水平维度中使用零填充。表5显示了性能评估。
4.4 POLAR ORIGIN AUGMENTATION(极坐标原点增强)
为了提高算法的鲁棒性,我们在训练过程中通过在回归的极坐标上增加一个随机位移来增加极坐标。请注意,与传统的增强方法(如旋转输入图像)相比,这种方法的计算成本很小。表5量化了这种增强的性能增益。
5 实验
5.1 ARCHITECTURES(结构)
我们在本节中简要地定义了体系结构,有关详细信息,请参见A。CCNN是一种传统的全卷积网络;PCNN与PCNN相同,但适用于具有中心原点的极坐标图像。STN是我们实现的空间变压器网络(Jaderberg等人,2015)。PTN是我们的极性变压器网络,PTN-CNN是PTN和CCNN的组合。根据参数的数量,后缀S和B表示小型和大型网络。后缀+和++表示训练和训练+测试旋转增强。
我们对基于极坐标的方法进行旋转增强。理论上,输入旋转的影响只是对应极坐标图像的一个偏移,不应影响分类器CNN。在实际应用中,插值和角度离散效果会导致旋转输入的极坐标图像略有不同,因此即使基于极坐标的方法也能从这种增强中获益。
5.2 ROTATED MNIST (LAROCHELLE ET AL., 2007)(旋转数据集)
表1显示了结果。我们将分析分为两部分;在左边,我们展示了更小的网络和没有旋转增强的方法,右边没有限制。
在受限方法中,谐波网络(Worrall等人,2016年)的性能略优于PTN,但训练时间增加了近4倍,因为复变量上的卷积成本更高。另外值得一提的是STN在没有增强的情况下性能较差,这说明学习变换参数比学习极坐标要困难得多。
在不受限制的方法中,PTN-B的大多数变体的性能优于当前的技术水平,与CCNN和/或测试时间增加相结合时有显著的改进。
最后,我们注意到PCNN在这个数据集中达到了较高的精度,因为数字大多是居中的,所以使用极坐标变换原点作为图像中心是合理的。然而,我们的方法比它有更高的优势,这表明即使在这种情况下,也有可能找到一个远离图像中心的原点,从而产生更独特的表现。
5.3 OTHER MNIST VARIANTS(其他MNIST变式)
我们还在其他MNIST变体中进行实验。 从Jaderberg等人那里复制RTS。 (2015)。 我们介绍了SIM2MNIST,它具有来自SIM(2)的更具挑战性的转换集)。 有关数据集的更多细节,请参见B。
表2显示了结果。 我们可以看到,PTN的性能主要与MNISTR和RTS上的STN相匹配。 这些数据集的变形是温和的,数据是丰富的,因此性能可能是饱和的。
然而,在SIM2MNIST上,变形更具挑战性,训练集更小5倍。PCNN的性能明显较低,这再次证明了预测最佳极性起源的重要性。由于其平移和旋转等变特性,HNet优于其他方法(除了PTN)。我们的方法在参数个数和训练时间上都更为有效,而且对扩张也是等变的,在很大程度上达到了最佳性能。
5.4 VISUALIZATION(可视化)
我们将网络激活可视化,以证实我们关于对平移不变性和对旋转和膨胀等效的主张。
图4(左)显示了一些预测的极性起源和极性转换的结果。我们可以看到,网络学会了抑制杂波并为极性变换找到合适的原点,极性变换模块之后的表示确实呈现了所要求的特性。
我们继续想象这些属性是否保存在更深的层中。图4(右)显示了来自最后一个卷积层的选定通道的激活,对于输入的不同旋转、膨胀和平移。读者可以证实,在卷积层序列中,确实保持了对旋转和膨胀的等变性和对平移的不变性。
5.5 EXTENSION TO 3D OBJECT CLASSIFICATION(扩展到3D模型)
我们扩展了我们的模型,从体素占用网格执行三维对象分类。 我们假设输入是通过从平行轴家族中绕轴的随机旋转来转换的。 然后,围绕该轴的旋转对应于圆柱坐标中的平移。
为了实现旋转的等差性,我们预测了一个轴,并将其作为原点转换为圆柱坐标。如果轴平行于输入网格轴之一,则为圆柱形变换相当于信道方向的极性转换,其中所有信道的原点相同,每个信道是3D体素网格的2D片。 在此设置中,我们可以将极性变压器层应用于每个切片。
我们使用了一种类似于Qi等人的各向异性探测技术。(2016)预测轴心。z表示与旋转轴平行的输入栅格轴。我们将以z为索引的维度视为通道,并运行规则的2D卷积层,减少每层上的通道数量,最终塌陷为单个2D热图。热图质心给出轴的一个点,方向与z平行。换句话说,质心是所有通道极坐标变换的原点。然后我们继续使用常规的3D-CNN分类器,作用于柱面表示。三维卷积与平移是等价的;因为它们作用于柱坐标,所以学习的表示与输入绕平行于z轴的旋转是等变的。
我们在ModelNet40(Wu et al.,2015)上进行实验,该模型包含绕重力方向(z)旋转的物体。图5显示了输入体素网格及其柱坐标表示的示例,而表3显示了分类性能。据我们所知,我们的方法优于所有已发表的基于体素的方法,即使没有增加测试时间。然而,基于多视图的方法通常优于基于体素的方法。(Qi等人,2016年)。
注意,我们也可以通过使用对数柱面坐标或对数球面坐标来实现标度的等变,但是这些坐标的变化都不会导致对任意三维旋转的等变。
6 结论
我们提出了一种新的网络,其输出对平移是不变的,与膨胀/旋转群是等价的。我们结合了学习平移(类似于ST)的思想,但为缩放和旋转提供了等距,从而避免了空间变压器中姿态回归所需的全连接层。通过该组中的卷积可以实现相对于扩张旋转的equivariance 。这样的卷积将需要产生多组副本,但是,我们通过转换为规范坐标避免了这种情况。