之前做过PTN的论文翻译,但有些没把握住精髓,这次对PTN进行了提炼,会清楚许多。
1.几个问题
1.1 基本信息
ICLR 2018
1.2 做了什么
提出PTN(Polar-Transformation Network)
实现对平移的不变、对旋转和伸缩的等变
1.3 实现方法
转换到极坐标系,此时平面卷积对应于旋转和尺度上的群卷积。
1.4 创新性 & 局限性
- 不需要像STN一样学习参数回归(其实是回归的参数要少一些,还是用了回归)。
- 只能识别全局形变。
- PTN能够实现平移不变性(借助STN),以及对旋转和膨胀的等变性(对数表示)。
- 原理不难,但是效果确实不错。
1.5 模型效果
2.数学部分 & 模型构建
2.1 图像的极坐标表示
笛卡尔坐标下的图像
I o ( x , y ) {I_o}\left( {x,y} \right) Io(x,y)
极坐标下的图像
I o ( e ξ sin θ , e ξ cos θ ) = λ ( ξ , θ ) {I_o}\left( {
{e^\xi }\sin \theta ,{e^\xi }\cos \theta } \right) = \lambda \left( {\xi ,\theta } \right) Io(eξsinθ,eξcosθ)=λ(ξ,θ)
其中 ( ξ , θ ) ∈ S O ( 2 ) × R + \left( {\xi ,\theta } \right) \in SO\left( 2 \right) \times {R^ + } (ξ,θ)∈SO(2)×R+
2.2 极坐标下的卷积 & 模型结构
(1) 预测原点。
输入图经过一个极坐标原点预测器(polar origin predictor)(其实只是个传统的卷积网络),得到一个热图(heat map),代表着“有效信息”的分布情况。
(2) 将图像的原点挪到预测的质心。
将热图的质心作为原图的原点,输入极坐标转换器(polar transformer),从而能得到图像的极坐标表示。显然,若极坐标原点预测器能够正确预测原点位置的话,则极坐标转换器输出的极坐标表示相对于物体在原图上的位置是具有不变性(invariance)的。原图为 I {I} I,将预测的质心 t 0 t_0 t0作为新的原点后得到 I o {I_o} I