Spatial Transformer Network (STN)原文解读

最新推荐文章于 2022-02-26 18:50:32 发布

kelly学技术

最新推荐文章于 2022-02-26 18:50:32 发布

阅读量539

点赞数

分类专栏： deep learning 文章标签： stn attention spatial transform

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qm5132/article/details/95110958

版权

deep learning 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

最近在研究attention机制，这篇是发表于16年的一篇涉及Attention机制的paper。

提出的原因：

（1）现有的CNN结构对空间不变形的处理能力较弱

（2）希望根据文理和形状就可以区分object的方位和部分变形

（3）max-pooling具有一定的空间不变形能力，但是局部的，而且只限制在高层次的cnn和max-pooling层，中间层无法获取空间转换能力。（某种程度来说，现有的CNN的空间转换不变性是受限的、预定义的）

优点：

（1）end-to-end的train

（2）stn的trainformer模块是可微的，不需要使用有监督训练或者修改现有优化机制，根据自己的特征图就可以主动学习特征图的转换能力

（3）spatial transformer能解决的图片转换种类：平移（translation）、缩放（scale）、旋转（rotate）和扭曲（warp）

（4）STN直接对数据处理，而不是对特征提取器处理！

原理：

spatial transformer的模块组成：定位网络、产生网格、抽样映射。

（1）localisation network

转换的theta多种多样，实现形式也是多种多样，只需要最后一层可以输出回归值就行。

（2）grid generator

$\left(\begin{array}{c}{x_{i}^{s}} \\ {y_{i}^{s}}\end{array}\right)=\mathcal{T}_{\theta}\left(G_{i}\right)=\mathrm{A}_{\theta}\left(\begin{array}{c}{x_{i}^{t}} \\ {y_{i}^{t}} \\ {1}\end{array}\right)=\left[\begin{array}{ccc}{\theta_{11}} & {\theta_{12}} & {\theta_{13}} \\ {\theta_{21}} & {\theta_{22}} & {\theta_{23}}\end{array}\right]\left(\begin{array}{c}{x_{i}^{t}} \\ {y_{i}^{t}} \\ {1}\end{array}\right)$

映射方向是：输出target=》输入source

（3）sampler

对输入特征图的像素抽样，计算经过何种方式可以获取到输出像素值。

需要保证输入和输出的channel数目一致。

源码实现注意点：

（1）spatial transformer的数目（一般来说6个参数作为整体）和输入图片数目保持一致。

更多学习笔记可以关注我的微信公众号「kelly学挖掘」，欢迎交流。

-- 未完待续 --

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spatial Transformer Network (STN)原文解读

最近在研究attention机制，这篇是发表于16年的一篇涉及Attention机制的paper。提出的原因：（1）现有的CNN结构对空间不变形的处理能力较弱（2）希望根据文理和形状就可以区分object的方位和部分变形（3）max-pooling具有一定的空间不变形能力，但是局部的，而且只限制在高层次的cnn和max-pooling层，中间层无法获取空间转换能力。（某种程度来说，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。