STN系列之Spatial Transformer Networks

本文介绍了Spatial Transformer Networks(STN)的概念,它解决了计算机视觉中的形变问题。STN作为神经网络的一部分,实现了形变矫正的端到端学习。通过STN,网络可以学习到适当的变换参数,对输入特征图进行采样,从而进行空间变换。实验表明,STN在手写数字识别、街景房屋号码识别和细粒度分类任务中都能提高性能,尤其是在处理多个目标或关注不同区域特征时。STN为将传统图像处理方法融入深度学习提供了新的思路。
摘要由CSDN通过智能技术生成

本来是要看这篇paper的:Supervised Transformer Network for Efficient Face Detection. Dong Chen, Gang Hua, Fang Wen, and Jian SunMicrosoft Research

这是一篇2016年做人脸检测的工作,主要的idea是通过一个transform net来把人脸对齐的过程变成end-to-end,隐式的来做。其先导工作为
Spatial Transformer Networks. Max Jaderberg Karen Simonyan Andrew Zisserman Koray KavukcuogluGoogle DeepMind, London, UK。也是利用spatial transformer network来解决pose、distortion、rotation比较大的这类识别任务,比如ocr、finegrind等。

所以花了些时间先来看了Spatial Transformer Networks.这个工作,还是个相当漂亮的工作。大部分计算机视觉任务都有个绕不开的问题就是形变,拍摄的角度、物体本身的形变都会导致检测、识别变得更加困难。传统的方法一般是定义一些关键点,然后根据关键点和标准物体图像的对应关系来做形变的矫正。那么end2end大法被验证是更优的方案之后,已经有很多传统方法被加入网络结构中成为深度学习中的一层,比如conv/pooling/normalize/embedding之类的。所以作者提出了一个很好的idea,做形变矫正这件事情也可以作为网络的一个层来表示,也就是这样:

空间变换网络(Spatial Transformer NetworksSTN)是一种神经网络结构,用于改善卷积神经网络(CNN)的空间不变性。STN可以对经过平移、旋转、缩放和裁剪等操作的图像进行变换,使得网络在变换后的图像上得到与原始图像相同的检测结果,从而提高分类的准确性。STN由三个主要部分组成:局部化网络(Localisation Network)、参数化采样网格(Parameterised Sampling Grid)和可微分图像采样(Differentiable Image Sampling)。 局部化网络是STN的关键组件,它负责从输入图像中学习如何进行变换。局部化网络通常由卷积和全连接层组成,用于估计变换参数。参数化采样网格是一个由坐标映射函数生成的二维网格,它用于定义变换后每个像素在原始图像中的位置。可微分图像采样则是通过应用参数化采样网格来执行图像的变换,并在变换后的图像上进行采样。 使用STN的主要优点是它能够在不改变网络结构的情况下增加空间不变性。这使得网络能够处理更广泛的变换,包括平移、旋转、缩放和裁剪等。通过引入STN层,CNN可以学习到更鲁棒的特征表示,从而提高分类准确性。 关于STN的代码实现,您可以在GitHub上找到一个示例实现。这个实现使用TensorFlow框架,提供了STN网络的完整代码和示例。您可以通过查看该代码来了解如何在您的项目中使用STN。 综上所述,spatial transformer networks(空间变换网络)是一种神经网络结构,用于增加CNN的空间不变性。它包括局部化网络、参数化采样网格和可微分图像采样三个部分。通过引入STN层,CNN可以学习到更鲁棒的特征表示,从而提高分类准确性。在GitHub上有一个使用TensorFlow实现的STN示例代码供参考。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值