从仿射变化到STN网络

最新推荐文章于 2024-06-11 20:06:28 发布

数据猴赛雷

最新推荐文章于 2024-06-11 20:06:28 发布

阅读量1.2k

点赞数

分类专栏：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/benben044/article/details/127049930

版权

神经网络专栏收录该内容

61 篇文章 9 订阅

订阅专栏

本文参考：

https://www.jianshu.com/p/e3f386771c51

仿射变换（AffineTransform）与仿射矩阵_TracelessLe的博客-CSDN博客_仿射矩阵

Pytorch中的仿射变换(affine_grid)_张博208的博客-CSDN博客_affine_grid

通俗易懂的Spatial Transformer Networks(STN)(一)_修炼之路的博客-CSDN博客

通俗易懂的Spatial Transformer Networks(STN)(二)_修炼之路的博客-CSDN博客

详细解读Spatial Transformer Networks（STN）-一篇文章让你完全理解STN了_黄小猿的博客-CSDN博客_stn算法（最重要）

一、仿射变化

1、实质：

仿射变化 = 线性变化 + 一个平移

2、变换公式：

进一步转化为：

或：

所以6个参数决定了一个仿射变化

3、几种变换矩阵

（1）扩大/缩放

（2）旋转

4、仿射变化代码

Opencv和pytorch都提供了仿射变化的函数。

Pytorch针对仿射变化提供了2个函数：

（1）创建grid，该grid为通过仿射后图片的位置坐标信息

grid = torch.nn.functional.affine_grid(theta, size)

（2）grid_sample重采样，根据输入图片变换后图片位置填充像素值

outputs = torch.nn.functional.grid_sample(inputs, grid, mode='bilinear')

mode=’bilinear’的原因是：

首先仿射变化的本质为采样，指定采样前和采样后的位置映射信息，然后把像素值复制过去，当放大后就出现部分位置空缺的情况，此时可用双线性插值填充空缺位置的像素值。

-》

二、STN网络原理

1、概述

STN：spatial transformer net。当输入图片通过STN模块之后获得变换后的图片，然后再将变换后的图片输入到CNN网络中，通过损失函数计算loss，然后计算梯度更新θ参数，最终STN模块会学习到如何矫正图片。

它分为三个部分。

（1）Localisation Net：

通过CNN提取的图像特征来预测变换矩阵θ。

即：根据图片特征决定变换矩阵，所以变换矩阵每张图片都不一样，也不是根据channel来决定变换矩阵。

（2）Grid generator:

根据θ生成变换前后的位置变换映射关系。

（3）Sampler

根据位置变换关系进行像素值采样，并通过双线性插值(Bilinear Interpolation)解决Grid generator模块出现小数位置的问题。

2、Localisation Net实现参数选取

各种仿射变化，都可以通过仿射矩阵实现，只需要六个参数[2*3]控制就可以了。所以我们可以把feature map作为输入，过连续若干层计算（如卷积、FC等），回归出参数θ，在我们的例子中就是一个[2,3]大小的6维仿射变换参数，用于下一步计算。

3、Grid Generator实现像素点坐标的对应关系

缩放旋转的本质，其实就是在原样本上采样，拿到对应的像素点，通俗点说，就是输出的图片（i, j）的位置上，要对应输入图片的哪个位置。

4、Sampler实现坐标求解的可微性

假如θ中都为整数，则源像素点位置对应目标像素点的位置也是整数。假如θ中有小数，但是没有元素的下标索引是小数。用四舍五入显然不能进行梯度下降来回传梯度的。

因为，梯度下降是一步一步调整的，而且调整的数值都比较小，哪怕权值参数有小范围的变化，最后的输出也会有小范围的变化。此时做如下改动:

上述公式首先根据小数的信息确定了本层网络的索引针对上层网络相关索引的组合信息，然后根据小数的值计算距离确定本层的最后像素点值。这样权值都是与结果对应的距离相关的，如果目标图片发生了小范围的变化，这个式子也是可以捕捉到这样的变化的，这样就能用梯度下降法来优化了。

三、STN代码示例

具体代码参考：https://blog.csdn.net/sinat_29957455/article/details/112756934

θ参数是根据特征进行调整的

# 回归theta参数

self.fc_loc = nn.Sequential(

nn.Linear(10 * 3 * 3, 32),

nn.ReLU(True),

nn.Linear(32, 2 * 3)

)

最后是根据图像生成的32位特征得到矫正参数。

数据猴赛雷

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从仿射变化到STN网络

STN网络解读
复制链接

扫一扫

专栏目录

数据猴赛雷 CSDN认证博客专家 CSDN认证企业博客

码龄15年

138: 原创

3万+: 周排名

1万+: 总排名

26万+: 访问

: 等级

2104: 积分

569: 粉丝

487: 获赞

66: 评论

1290: 收藏

私信

关注

热门文章

分类专栏

游戏 7篇
java 16篇
神经网络 61篇
日记
spark 2篇
AIGC 9篇
windows工具 1篇
前端 7篇
容器技术 2篇
python 4篇
cuda 1篇
Android应用开发 7篇
android 1篇
InstrumentationTestCase 1篇
实例 1篇
源码 1篇
webkit 1篇

最新评论

windows11安装apex工具
Johnny_Liu｜: 不行啊，系统说找不到文件 No CUDA runtime is found, using CUDA_HOME='C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1' Warning: Torch did not find available GPUs on this system. If your intention is to cross-compile, this is not an error. By default, Apex will cross-compile for Pascal (compute capabilities 6.0, 6.1, 6.2), Volta (compute capability 7.0), Turing (compute capability 7.5), and, if the CUDA version is >= 11.0, Ampere (compute capability 8.0). If you wish to cross-compile for a single specific architecture, export TORCH_CUDA_ARCH_LIST="compute capability" before running setup.py. Traceback (most recent call last): File "setup.py", line 86, in <module> _, bare_metal_version = get_cuda_bare_metal_version(CUDA_HOME) File "setup.py", line 24, in get_cuda_bare_metal_version raw_output = subprocess.check_output([cuda_dir + "/bin/nvcc", "-V"], universal_newlines=True) File "D:\anaconda\envs\AoM\lib\subprocess.py", line 356, in check_output **kwargs).stdout File "D
LangChain调用tool集的原理剖析（包懂）
Horikyouko: 去langchain官网看一下文档？或者运行的时候就会有warning提示你当前调用已经不适用了，应该用什么什么
LangChain调用tool集的原理剖析（包懂）
极地星辰: 您好，请问这里的langchain是什么版本呢，我自己装的langchain发现没有from langchain.agents import AgentType这个库
Java文字描边效果实现
山闻愚: 大神，ImageUtil 这你用的是哪个包
windows11下运行swin-transformer算法
阿燃定律: 您好，想问一下，torch.distributed.init_process_group('gloo', init_method='file://tmp/somefile', rank=0, world_size=1)，这里的init_method是什么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。