深度学习—— Spatial Transformer Layer

先说结论:在CNN中,没有放缩旋转的功能。

1. 什么是Spatial Transformer Layer

因为有pooling层的原因,所以有一点translation的功能。在下图中,通常情况下左右两个对于CNN来说是不一样的。
在这里插入图片描述
那么,Spatial Transformer Layer的功能是,想要学习一个层,能够对左图中的图片进行旋转和缩放
在这里插入图片描述

2. How to work?

学习过程中,平移本质上来说就是调整权重的过程。
在这里插入图片描述
上图中,权重相同的颜色代表相同的权值。其目标是进行向下平移,具体公式如下:
在这里插入图片描述
举个栗子:

  • 向下平移:把 a l 3 l − 1 a_{l3}^{l-1} al3l1移动到 a l 23 a_{l}^{23} al23的位置,此时, a l 23 a_{l}^{23} al23 a l 3 l − 1 a_{l3}^{l-1} al3l1相对应, a l 23 a_{l}^{23} al23与左图中其他位置的连接权重均为0
  • 向右旋转:把 a l 3 l − 1 a_{l3}^{l-1} al3l1移动到 a l 33 a_{l}^{33} al33的位置,此时, a l 33 a_{l}^{33} al33 a l 3 l − 1 a_{l3}^{l-1} al3l1相对应, a l 33 a_{l}^{33} al33与左图中其他位置的连接权重均为0

那么,怎么实现这种变换呢?

通过一个全连接层实现
在这里插入图片描述

2.1.1 对图片进行平移:

在这里插入图片描述
首先把图片中的每一个像素坐标化,矩阵
[ 2 2 2 2 ] \begin{bmatrix} 2 &2 \\ 2 &2 \end{bmatrix} [2222]
的作用是将其放大,
[ 0 0 ] \begin{bmatrix} 0 \\ 0 \end{bmatrix} [00]的作用是控制其是否进行平移操作。

2.1.2 对图片进行缩小

在这里插入图片描述

2.1.3 对图片进行旋转

在这里插入图片描述

综上,Spatial Transformer Layer需要六个参数
在这里插入图片描述
但是,实际上在计算的过程中,如果 a , b , c , d , e , f a,b,c,d,e,f a,b,c,d,e,f的值如果是小数呢?在这样的情况下是没有办法进行可微分的操作的。因此,需要采用一种方法Interpolation操作。

在这里插入图片描述

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值