Spatial Transformer Networks 论文详解及代码

強云

于 2020-11-25 16:18:12 发布

阅读量966

点赞数

分类专栏：笔记文章标签： tensorflow 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42577742/article/details/110132612

版权

笔记专栏收录该内容

87 篇文章

订阅专栏

Spatial transformer networks

背景
论文解析
代码

背景

卷积神经网络在多种图像类中的任务表现出色，但有些图像类的任务需要对图像进行几何变换，需要实现一种可微的网络，使能对卷积网络中的特征图或寻常的图像（都是矩阵，没有数学上的区别）进行几何变换。

论文解析

在这里插入图片描述

以U表示输入(特征图或寻常的图像），V表示输出（转换后的特征图或寻常的图像）。三步策略

Localisation Newwork
一个自定义的回归网络。其输入为U，输出为变换所需要的参数 $\theta$ 。如仿射变换的输出即为6维。
Parameterised Sampling Grid

这一步进行几何变换，不过是对输出坐标进行几何变换,得到输入的坐标；
以2D的仿射变换为例， $x_i^s, y_i^s$ 为输入的网格坐标， $x_i^t, y_i^t$ 为变换后的网格坐标；
这是图像领域常用的方案，是为了避免输出出现空洞和重叠。
Differentiable Image Sampling
这一步的核心是为了采样（插值）。
第二步生成的坐标可能不在网格顶点上，需要将这些坐标采样到网格顶点上。

$V_i^c$ 为输出的网格中 $i$ 的幅值，H为网格的高，W为网格的宽， $U_{nm}^c$ 为输入的幅值。
这是利用核对网格进行卷积进行采样的同意数学表达，不同的采样方式对应不同的数学公式。且理论上任意的卷积核都可以使用。

代码

github质量较高的代码：实现了 2D的仿射变换，双线性插值。不包含参数回归网络。
https://github.com/kevinzakka/spatial-transformer-network.git

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。