机器学习与深度学习系列连载：第二部分深度学习（二十三) 空间转换层 Spatial Transfer Layer

最新推荐文章于 2024-04-27 00:30:00 发布

人工智能插班生

最新推荐文章于 2024-04-27 00:30:00 发布

阅读量1k

点赞数

分类专栏：深度学习神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dukuku5038/article/details/84112022

版权

深度学习同时被 3 个专栏收录

53 篇文章 9 订阅

订阅专栏

51 篇文章 1 订阅

订阅专栏

25 篇文章 82 订阅

订阅专栏

空间转换层 Spatial Transfer Layer

本节内容我们重新回到卷积神经网络CNN，众所周知，从2012年开始，CNN在图像处理中已经扮演非常重要的作用。但是CNN还是不是非常“智能”，Why？当我们把图像放大、缩小、平移、翻转的时候，如果训练数据中没有相关的图像数据（原始图像的变换数据），CNN的识别能力会大幅下降。这个时候，空间转换层 Spatial Transfer Layer 就派上用场。
我们先看一幅图：
在这里插入图片描述

1. Spatial Transfer Layer 定义

上图中，讲原始图数据进行旋转后，接入CNN前的最后一层，就是空间转换层。他是怎么做到的呢。

我们总结出公式：l是图片的层，i,j 是像素的index，n是行、m是列

在这里插入图片描述
我们举一个例子，将图片进行向下平移。从l-1层到l层

这时，我们有：

参数值的设定就是:

所以，图片的平移、翻转，都可以理解为通过一个NN进行实现：
(1) 向下移动：

(2) 顺逆时针旋转：

2. 图片转换 Image Transformation

图片转换的方法，主要有放大、缩小，旋转：
（1）放大
在这里插入图片描述
（2) 缩小

（3) 旋转

3. Spatial Transfer Layer 过程

根据图片转换的过程，我们定义图片转换需要的6个参数：
在这里插入图片描述
具体我们需要找一个神经网络，生成这6个参数。

但是abcdef这六个参数生成的不一定是整数，如果是小数怎么破？四舍五入？可以用gradient decent吗？
我们慢慢揭开一个个问题。

(1) 通过6个参数以计算a22为例
在这里插入图片描述

计算得到在这里插入图片描述
(2) 产生最后的a22的结果

公式是：

这个时候a22 就是可以用Gradient Decent了。

4. Spatial Transfer Layer 模型

在这里插入图片描述
图中的localisation net 就是产生Spatial Transfer 的6个参数，Grid generator 是产生图片转换的图形。

(1) 数字识别
在这里插入图片描述

(2) 门牌识别
在这里插入图片描述

(3) 鸟类识别
分别针对鸟类头部和身体，进行放大识别在这里插入图片描述

这个时候就不需要翻转的参数，只需要4个参数即可
在这里插入图片描述
实验结果具有说服力

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229，斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里，感谢这些经典课程，向他们致敬！

人工智能插班生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。