Spatial Transformer Networks论文

最新推荐文章于 2022-05-13 02:03:29 发布

zjjszj

最新推荐文章于 2022-05-13 02:03:29 发布

阅读量221

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/ZJpingfanzhilu/article/details/105614084

版权

论文阅读专栏收录该内容

10 篇文章 0 订阅

订阅专栏

0 引言

该论文是2015年发表在nips会议上的一篇文章，提出spatial transformer结构，可以改变输入特征图中某一对象的大小、形状。可用于基于注意力机制的网络。可以在CNN中的任意位置插入任意多个spatial transformer。

1 背景

卷积神经网络中最大池化支持对象发生微小变动的空间不变性（平移、旋转等），然而当对象发生比较大的变换时，就不支持空间不变性，因此作者提出一种spatial transformer结构，以调参的形式支持这种特性。
优点：

可以加在CNN中的任何位置并且不用改变网络结构及损失函数。
可以端到端的进行训练。
可以提高精度。

缺点：

需要调参。

2 结构

网络由三部分组成：localisation network（参数预测）、grid generator（坐标映射）、sampler（像素采集）。结构图如图2.1所示。效果如图2.2所示，a为自身转换（不变），b为旋转。

图2.1 spatial transformer结构图

图2.2 spatial transformer效果图

2.1 localisation network

预测转换的参数。
$\begin{pmatrix}x_i^s\\ y_i^s\end{pmatrix}=\Gamma_\theta(G_i)=\Alpha_\theta\begin{pmatrix}x_i^t\\ y_i^t\\1 \end{pmatrix}=\begin{bmatrix} \theta_{11} & \theta_{12}&\theta_{13}\\\theta_{21} & \theta_{22}&\theta_{23}\end{bmatrix} \begin{pmatrix}x_i^t\\y_i^t\\1 \end{pmatrix}$
$-1\leq x_i^s,y_i^s,x_i^t,y_i^t\leq1$

几种变换：
identity变换时： $A_\theta=\begin{bmatrix} 1 & 0 & 0\\ 0&1&0 \end{bmatrix}$
平移变换时： $A_\theta=\begin{bmatrix} 1 & 0 & \theta_1\\ 0&1&\theta_2 \end{bmatrix}$
旋转变换时： $A_\theta=\begin{bmatrix} cos\theta & -sin\theta & 0\\ sin\theta& -cos\theta&0 \end{bmatrix}$
note

$x_i^t$ 为目标x坐标， $y_i^t$ 为源x坐标。由目标坐标值（已知）推断源特征图（所求）的坐标。

2.2 grid generator

转换后生成特征图的大小由用户指定，计算每个像素的坐标。

2.3 sampler

计算每个坐标的像素值，坐标值可能为小数，此时要注意如何进行反向传播。因为如果像素值只取离坐标最近的点时，当坐标反向传播后，新的坐标对应的像素值可能仍为上一次的像素值，由此计算的损失值不变，梯度为0，反向传播失效。

zjjszj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spatial Transformer Networks论文

0 引言该论文是2015年发表在nips会议上的一篇文章，提出spatial transformer结构，可以改变输入特征图中某一对象的大小、形状。可用于基于注意力机制的网络。可以在CNN中的任意位置插入任意多个spatial transformer。1 背景卷积神经网络中最大池化支持对象发生微小变动的空间不变性（平移、旋转等），然而当对象发生比较大的变换时，就不支持空间不变性，因此作者提出...
复制链接

扫一扫

专栏目录