Spatial-Transform-Network

  • Introduce
    传统pooling层:

把feature map分割成网状cell并从每个网格中简化信息。它会丢弃75%(2x2)的激活特征,在位置信息不重要的前提下会增加空间的鲁棒性,不管目标出现在什么位置都能获得相似的特征。但是对于某些任务位置信息是相当重要的,比如在猫分类器中,就无法知道胡子相对于鼻子的位置(在同一cell被池化)。

池化kernel 是局部的,固定的,空间不变性要在深层的卷积池化层才能实现,对于扭曲较大的输入,中间的feature map不具有空间不变性,因此饱受扭曲输入的折磨。只包含pool层的网络对空间变换的承受能力是有限的,这也是STN提出的原因。

Spatial Transform Layer优点:
可差分模块,可以嵌入到CNN网络任何一个地方包括卷积层之间,全连接层之间。可以统一的进行反向传播。
能表现出pool相似的功能,可以进行仿射变换将扭曲输入纠正过来;而且能去除多余背景提取目标部分,有种注意力机制的特点。

  • 网络结构

在这里插入图片描述
图中STN由3部分组成:Localization net,Grid generator, sampler。其中U,V分别指输入和输出特征图。(Spatial Transform对feature map每个通道的处理是相同的)。将 U ∈ R H W C U{\in}R^{HWC} URHWC, 输入Localization网络,求得参数向量 θ \theta θ,Grid generator根据 θ \theta θ求出对应输入特征图的采样坐标 τ θ \tau_{\theta} τθ,最后对输入特征图采样得到 V ∈ R h w c V{\in}R^{hwc} VRhwc

localization net
参数预测网络预测出仿射变换矩阵,见下。

  • 坐标映射网络

在这里插入图片描述
其中 U n m C U^C_{nm} UnmC 表示输入特征图在坐标m,n处的像素值, k ( x i s − m ) k(x^s_i - m) k(xism) 表示采样kernel,常用的有双线性采样核。可以看出输出特征图和输入大小是不同的,一般来说需要预先定义输出V的形状。在公式中每计算输出的一个像素值就要遍历整张输入特征图,所以我们能做逆变换(放射变换为例):

在这里插入图片描述

这里的 θ \theta θ矩阵由参数预测网络得到。STN网络可以学习放射变换在内的各种变换。

  • 采样网络
    在这里插入图片描述

由于上一步求得的坐标 ( x i t , y i t ) (x^t_i, y^t_i) (xit,yit) 是浮点数而实际坐标是整数,文中使用双线性插值来解决。公式见论文(4)(5),同时双线性插值是可导的,公式也给出(6)(7)。

参考:

[1] https://kevinzakka.github.io/2017/01/18/stn-part2/

[2] https://arxiv.org/pdf/1506.02025.pdf

[3] http://www.paperweekly.site/papers/notes/2

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值