深度学习—— Spatial Transformer Layer

最新推荐文章于 2023-09-23 20:46:39 发布

EntropyPlus

最新推荐文章于 2023-09-23 20:46:39 发布

阅读量2.9k

点赞数 6

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012759262/article/details/102720308

版权

深度学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

先说结论：在CNN中，没有放缩和旋转的功能。

1. 什么是Spatial Transformer Layer

因为有pooling层的原因，所以有一点translation的功能。在下图中，通常情况下左右两个对于CNN来说是不一样的。
在这里插入图片描述
那么，Spatial Transformer Layer的功能是，想要学习一个层，能够对左图中的图片进行旋转和缩放。

2. How to work？

学习过程中，平移本质上来说就是调整权重的过程。
在这里插入图片描述
上图中，权重相同的颜色代表相同的权值。其目标是进行向下平移，具体公式如下：

举个栗子：

向下平移：把 $a_{l3}^{l-1}$ 移动到 $a_{l}^{23}$ 的位置，此时， $a_{l}^{23}$ 与 $a_{l3}^{l-1}$ 相对应， $a_{l}^{23}$ 与左图中其他位置的连接权重均为0
向右旋转：把 $a_{l3}^{l-1}$ 移动到 $a_{l}^{33}$ 的位置，此时， $a_{l}^{33}$ 与 $a_{l3}^{l-1}$ 相对应， $a_{l}^{33}$ 与左图中其他位置的连接权重均为0

那么，怎么实现这种变换呢？

通过一个全连接层实现：
在这里插入图片描述

2.1.1 对图片进行平移：

在这里插入图片描述
首先把图片中的每一个像素坐标化，矩阵
$\begin{bmatrix} 2 &2 \\ 2 &2 \end{bmatrix}$
的作用是将其放大，
$\begin{bmatrix} 0 \\ 0 \end{bmatrix}$ 的作用是控制其是否进行平移操作。

2.1.2 对图片进行缩小

在这里插入图片描述

2.1.3 对图片进行旋转

在这里插入图片描述

综上，Spatial Transformer Layer需要六个参数
在这里插入图片描述
但是，实际上在计算的过程中，如果 $a, b, c, d, e, f$ 的值如果是小数呢？在这样的情况下是没有办法进行可微分的操作的。因此，需要采用一种方法Interpolation操作。

在这里插入图片描述

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
深度学习—— Spatial Transformer Layer

先说结论：在CNN中，没有放缩和旋转的功能。1. 什么是Spatial Transformer Layer因为有pooling层的原因，所以有一点translation的功能。在下图中，通常情况下左右两个对于CNN来说是不一样的。那么，Spatial Transformer Layer的功能是，想要学习一个层，能够对左图中的图片进行旋转和缩放。2. How to work？学习过程中...
复制链接

扫一扫

专栏目录

EntropyPlus CSDN认证博客专家 CSDN认证企业博客

码龄10年

93: 原创

23万+: 周排名

189万+: 总排名

19万+: 访问

: 等级

2363: 积分

253: 粉丝

154: 获赞

43: 评论

713: 收藏

私信

关注

热门文章

分类专栏

最新评论

概率图模型基础(7)——无向图模型（马尔可夫随机场-基本概念）
qq_33782623: 文章很不错，但是翻译错了啊！马尔可夫网需要满足的条件：无向图中每个节点表示一个或者一组势函数，也就是我们前文提到的“因子”。不是每个节点(node)，而是每条边(edge)。
概率图模型基础(7)——无向图模型（马尔可夫随机场-基本概念）
RCEing: 第4节最后的马尔科夫性我觉得应该是关于P(X,Z|Y)的，不知道我理解的对不对（摸头）
Linux下运行bash脚本显示“: /usr/bin/env: "bash\r": 没有那个文件或目录
csfchh: 亲测有用
3 图游走算法
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7978431, 请多输出高质量博客, 帮助更多的人
YOLO1代码详解
go_go_go_: 源码中数据处理把置信度全部设置成了1（代码1：21-23行）在loss时根据置信度筛选obj_mask，的意义又何在呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。