「Deep Learning」Note on Spatial Transformer Networks

Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/79875310

论文笔记

空间变换器网络(Spatial Transformer Networks, STN)是谷歌DeepMind的杰作。

卷积网络(ConvNet)缺乏对输入数据的空间不变性,即图像发生仿射变换后,经过网络后将得到不一致的结果。我们经常需要进行数据扩充(Data augmentation),这种处理虽然针对不同视觉任务,会有不同的具体步骤,但是往往是盲目的。针对这个问题,Jaderberg等人提出可学习/可微分模块,空间变换器,使得卷积网络具有这些不变性:平移、尺度、旋转和翘曲(warping)。因此,有两种方法提供空间不变性:1、数据扩充;2、STN。

局部最大值池化层在一定程度上提供微小空间不变性,但是对于较大的仿射变换则不适合。因此,存在局限。

论文中提到的适用范围(不限于):图像分类,尤其是自然图像中的文本处理;互定位(co-localisation),尤其是医学图像中某器官被配准在某轴(长轴)上,便于后面的识别和分割;空间注意力。

空间变换器

如图1所示。空间变换器由定位网络(Localisation network)、网格生成器(Grid generator)和采样器(Sampler)三部分组成。 U U 为输入特征图或者输入图像(彩色或者灰色),首先经过定位网络,输出变换参数θ,然后网格生成器根据 θ θ U U 的大小生成网格Tθ(G)(在pytorch中,由torch.nn.functional.affine_grid实现), G G 为regular网格,Tθ()为不regular网格,最后采样器利用网格 Tθ() T θ ( ) U U 输出变形特征图或者变形输入图像V(在pytorch中,由torch.nn.functional.grid_sample实现)。定位网络接收不同输入,输出不同变换参数 θ θ ,即变换参数以输入为条件。

这里写图片描述

图 1

定位网络

没啥好说的,就是一个回归网络。

参数化采样网格

论文中,定义输出像素落入regular网格 G= G = { Gi G i }里,其中 Gi G i =(xti,yti) = ( x i t , y i t ) ,表示输出特征图 V V 。假设Tθ为仿射变换,则满足:

(xsiysi)=Tθ(Gi)=Aθxtiyti1=[θ11θ21θ12θ22θ13θ23]xtiyti1 ( x i s y i s ) = T θ ( G i ) = A θ ( x i t y i t 1 ) = [ θ 11 θ 12 θ 13 θ 21 θ 22 θ 23 ] ( x i t y i t 1 )

可微图像采样

没啥好说的(原文好复杂),就是一个图像插值过程。

实验结果

数据集:MNIST、SVHN(街景视角房屋号码)和CUB-200-2011(200类鸟)

Distorted MNIST

这部分说明,TPS变换最牛逼。

SVHN

这部分说明,自然图像的文本检测和识别可用STN。

细粒度分类

这部分说明,多个STN会成为不同部件(鸟头、鸟身)检测器,如图2所示。启发行人再识别研究。

这里写图片描述

图 2

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值