论文阅读 | Spatial Transformer Networks

max-pooling作用 在一定程度上帮助CNN处理空间不变性
在这里插入图片描述

Spatial Transformers

Spatial Transformers 机制分为三个部分:
1.localisational network,输入特征映射,输出Spatial Transformation 参数,
2.用这些参数创造sampling grid,将输入映射通过转化变为transformed map

Localisation Network

Localisation Network将输入特征\(U\in R^{H*W*C}\) ,\(\theta\)是输出,transformation \(\tau_{\theta}\)是变换参数应用在feature map 上,\(\theta=f_{loc}(U)\),\(\theta\)根据转换类型是可变的,
Localisation Network \(f_{loc}(U)\),可以是全连接,也可以是CNN,但都必须有a final regression layer 来产生transformation parameter \(\theta\)

Parameterised Sampling Grid

每个输出像素通过应用一个中心输入feature map的一个特定的位置的采样kernel,
output pixels依赖于一个grid G,形成输出\(V\in R^{H^{'}*W{'}*C}\)
在这里插入图片描述
a 是 regular grid,\(I\)是单位转移参数,b是an affine transformation
在这里插入图片描述
与图形学位置纹理变换相同,将原始坐标经过变换矩阵处理后,转换为目标坐标
在这里插入图片描述
用于attention的变换矩阵

Differentiable Image Sampling

在这里插入图片描述
\(\Phi_{x}\),\(\Phi_{y}\)是用于图像插值基本sampling kernel \(k()\)的参数,\(V_{i}^{c}\)是输出值channel c 像素i在\((x_{i}^{t},y_{i}^{t})\),对每个通道的采样是一致的
height and width normalised coordinates
在这里插入图片描述
理论上,任何满足对x,y可导的
在这里插入图片描述
上式求偏导:
在这里插入图片描述

Spatial Transformer Networks

combination of the localisation network, grid generator, and sampler form a spatial transformer 这个组合可以被用在CNN结构的任何一个地方
可以用多个STN

转载于:https://www.cnblogs.com/Zak-NoS/p/10941776.html

视觉Transformer是一种基于Transformer架构的深度学习模型,用于处理计算机视觉任务。它的发展脉络可以追溯到自然语言处理领域中的Transformer模型。 2017年,Google的研究人员提出了Transformer模型,用于机器翻译任务。这个模型使用了自注意力机制,能够在没有序列顺序限制的情况下有效地建模长距离依赖关系,取得了很好的翻译效果。 在2018年,Ashish Vaswani等人进一步提出了"Attention is All You Need"论文,详细介绍了Transformer模型的结构和训练方法。这个论文引起了广泛关注,并成为了自然语言处理领域的重要里程碑。 在2019年,Vision Transformer (ViT)模型被提出,将Transformer模型应用于计算机视觉任务。ViT通过将图像切分为一系列小的图像块(patches),并将这些图像块转化为序列输入,然后使用Transformer模型进行处理,实现了图像分类任务。 随后,为了更好地处理图像中的空间结构信息,研究人员提出了一系列改进的视觉Transformer模型。例如,Spatial Transformer Networks (STN)模型引入了一个空间变换网络,用于学习图像的几何变换;Vision Permutator模型则通过引入可学习的排列操作,改进了图像块的排列方式。 此外,还有一些针对特定任务的视觉Transformer模型被提出,如图像分割、目标检测和图像生成等。这些模型通过在Transformer架构中引入特定的模块和损失函数,实现了不同的计算机视觉任务。 总之,视觉Transformer的发展脉络可以追溯到Transformer模型的提出和应用于自然语言处理领域,然后经过一系列改进和扩展,被成功应用于计算机视觉任务中。这些模型在图像分类、目标检测、图像分割等任务上取得了显著的性能提升,成为了计算机视觉领域的重要研究方向之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值