Spatial Transformer Networks

Spatial Transformer Networks是Deepmind团队去年的一个工作,一经发布就引起了大量关注,这篇文章把在图像识别前常做的alignment操作放到了neural network当中,不得不说方法很优雅也很work。我当时也在第一时间读了这篇文章,Deepmind的工作都很impressive,很多论文可能只需要花十几分钟甚至几分钟过一遍就可以,因为那些文章往往只是在前人的工作上做了一点点改进,而Deepmind的论文几乎都是有比较大的创新,并且实验充分,工作扎实。
这篇论文提出了Spatial Transformer Layer,如下图所示,论文中说的有点复杂,其实理解了也挺简单的,Localisation net是最关键的一步,以Affine transform为例,就是图片过一个CNN学习Affine transform需要的6个参数,这个CNN的输出就是这6个参数,然后剩下的两步其实就是做transform了,Grid generator就是将原始图片的每个点映射到做transform后的坐标,Sampler就是根据映射后的坐标做插值得到完整图像。其实很好理解也易于实现。
这里写图片描述
这里写图片描述
前几天我尝试在SVHN数据集上复现了下实验,网络和论文中不一样,自己随便搭了一个,最后用LSTM+CTC做识别,原始的准确率是93.2%,加了单个Spatial Transformer Layer后提升到了93.4%,论文里是从96%->96.3%,虽然准确率提升不多,但是可以看到很多倾斜的图片经过Spatial Transformer Layer后明显变正了,效果如下图所示。实验中感觉有几个地方需要注意,一是Localisation net要足够大才能比较好地捕捉到图片的抽象特征,可以参考论文中的结构,二是Spatial Transformer Layer的初始化要满足一开始输出图片和输入图片相同,否则一开始就随机对图片做transform很难训练得到比较好的结果。以Affine transform为例,Spatial Transformer Layer最后一层输出6个参数的全连接层初始化的weight为0,bias为1 0 0 0 1 0,这样就能开始时保证输出图像和输入图像一样。我一开始做实验没有注意这一点,浪费了不少时间。

这个实验还比较好做,并且对处理倾斜的物体确实有效果,大家有兴趣可以试一下

转载自:http://lufo.me/2016/09/spatial_transform/

空间变换网络(Spatial Transformer NetworksSTN)是一种神经网络结构,用于改善卷积神经网络(CNN)的空间不变性。STN可以对经过平移、旋转、缩放和裁剪等操作的图像进行变换,使得网络在变换后的图像上得到与原始图像相同的检测结果,从而提高分类的准确性。STN由三个主要部分组成:局部化网络(Localisation Network)、参数化采样网格(Parameterised Sampling Grid)和可微分图像采样(Differentiable Image Sampling)。 局部化网络是STN的关键组件,它负责从输入图像中学习如何进行变换。局部化网络通常由卷积和全连接层组成,用于估计变换参数。参数化采样网格是一个由坐标映射函数生成的二维网格,它用于定义变换后每个像素在原始图像中的位置。可微分图像采样则是通过应用参数化采样网格来执行图像的变换,并在变换后的图像上进行采样。 使用STN的主要优点是它能够在不改变网络结构的情况下增加空间不变性。这使得网络能够处理更广泛的变换,包括平移、旋转、缩放和裁剪等。通过引入STN层,CNN可以学习到更鲁棒的特征表示,从而提高分类准确性。 关于STN的代码实现,您可以在GitHub上找到一个示例实现。这个实现使用TensorFlow框架,提供了STN网络的完整代码和示例。您可以通过查看该代码来了解如何在您的项目中使用STN。 综上所述,spatial transformer networks(空间变换网络)是一种神经网络结构,用于增加CNN的空间不变性。它包括局部化网络、参数化采样网格和可微分图像采样三个部分。通过引入STN层,CNN可以学习到更鲁棒的特征表示,从而提高分类准确性。在GitHub上有一个使用TensorFlow实现的STN示例代码供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值