【论文学习】STN —— Spatial Transformer Networks

本文介绍了Spatial Transformer Networks(STN),一种由DeepMind提出的能够显式学习图像变换不变性的网络结构。STN包括定位网络、网格生成器和采样器三个模块,可以替代传统的对齐操作,实现端到端的训练。实验表明,STN可以有效地处理图像的各种形变,且适用于不同的网络结构,提高了分类任务的性能。
摘要由CSDN通过智能技术生成

Paper:Spatial Transformer Networks

这是Google旗下 DeepMind 大作,最近学习人脸识别,这篇paper提出的STN网络可以代替align的操作,端到端的训练实现图片的align。

实际使用的过程中不需要landmarks也可以做align了,而且还可以并联多个,这对于多个物体非常适用,而且,输出的feature大小可以变换,这一点也很灵活。

提出背景

CNN可以显示的学习平移不变性,隐式的学习到对旋转,伸缩、尺度等变换的不变性,Google DeepMind 2016年提出的STN网络,可以显式地赋予网络对上述变换的不变性。不依赖于关键点进行矫正和对齐,而且网络可以作为模块加入神经网络的各个层中。

先来看STN效果

如图,是手写数字识别,图中只有一小块是数字,其他大部分地区都是黑色的,或者是小噪音。假如要识别,用STN层来对图片数据进行旋转缩放,只取其中的一部分,放到之后然后经过CNN就能识别了。说白了就是把图片中物体所在区域送到网络后面的层中,使得后面的分类任务更简单。

本质上来说,CNN是尽力让网络适应物体的形变,而STN是直接通过 Spatial Transformer 将形变的物体给变回到正常的姿态,然后再给网络识别。

 

<
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值