CNN概念之上采样,反卷积,Unpooling概念解释

47 篇文章 25 订阅
39 篇文章 2 订阅

前言

本文译自quora上对《What is the difference between Deconvolution, Upsampling, Unpooling, and Convolutional Sparse Coding?》的回答。个人觉得这位老哥的回答很简洁干练。所以转到这里。

Upsampling(上采样)

在FCN、U-net等网络结构中,我们见识到了上采样这个东西。那么,什么是上采样呢?简单来说:上采样指的是任何可以让你的图像变成更高分辨率的技术

最简单的方式是重采样和插值:将输入图片进行rescale到一个想要的尺寸,而且计算每个点的像素点,使用如***双线性插值***等插值方法对其余点进行插值来完成上采样过程。

Unpooling

Unpooling是在CNN中常用的来表示max pooling的逆操作。这是从2013年纽约大学Matthew D. Zeiler和Rob Fergus发表的《Visualizing and Understanding Convolutional Networks》中产生的idea:

鉴于max pooling不可逆,因此使用近似的方式来反转得到max pooling操作之前的原始情况

简单来说,记住做max pooling的时候的最大item的位置,比如一个3x3的矩阵,max pooling的size为2x2,stride为1,反卷积记住其位置,其余位置至为0就行:

[ 1 2 3 4 5 6 7 8 9 ] − > ( m a x p o o l i n g ) [ 5 6 8 9 ] − > ( u n p o o l i n g ) [ 0 0 0 0 5 6 0 8 9 ] \left[ \begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{matrix} \right] ->(max pooling) \left[ \begin{matrix} 5 & 6 \\ 8 & 9 \end{matrix} \right] ->(unpooling) \left[ \begin{matrix} 0 & 0 & 0 \\ 0 & 5 & 6 \\ 0 & 8 & 9 \end{matrix} \right] 147258369>(maxpooling)[5869]>(unpooling)000058069

Deconvolution(反卷积)

Deconvolution(反卷积)在CNN中常用于表示一种反向卷积 ,但它并不是一个符合严格数学定义的反卷积操作。与Unpooling不同,使用反卷积来对图像进行上采样是可以习得的。通常用来对卷积层的结果进行上采样,使其回到原始图片的分辨率。

反卷积也被称为分数步长卷积(convolution with fractional strides)或者转置卷积(transpose convolution)或者后向卷积(backwards strided convolution)。作者认为应该称之为转置卷积

真正的反卷积如(Deconvolution - Wikipedia)里面所说,但是我不认为有人在实际的CNN中会使用它。

前面提到,反卷积也被称为分数步长卷积或者转置卷积或者后向卷积。在我看来,这些术语不会让人真正的理解到底发生了什么,而实际上这些东西还是挺简单的。

常规的卷积操作(valid模式):滑动步长为S,图片大小为N1xN1,卷积核大小为N2xN2(示意图假设为3x3),卷积后图像大小:(N1-N2)/S+1 x (N1-N2)/S+1如下图:

这里写图片描述
为了要让经过卷积的结果回到卷积前的模样。如图这个2x2的的结果,如何回到4x4呢?其实这种也算一种卷积的操作,只不过进行了padding操作:
这里写图片描述

或者,通常大家会选择更大的dilation(等价于小于1的stride)来增强上采样的效果(可以理解成分数步长卷积,下图显示的是stride=1/2的示意图,感谢评论区荶枫大帝的提示。)
这里写图片描述

上面这种图的地址:https://github.com/vdumoulin/conv_arithmetic,需要注意的是:上采样的kernel的学习与正常的卷积核类似

FCN(U-net)中的low-level和high-level特征的融合

在FCN论文中,作者采用了combine网络的low-level和high-level特征的方式。这是因为:

网络比较深的时候,特征图通常比较小,对这种特征图进行上采样——有很好的语义信息,但分辨率很差。
网络比较浅的时候,特征图通常比较大(接近input image),对这种特征图进行上采样——有很好的细节,但语义信息很差。

因此,对两者进行combine,我们可以在得到很好的细节基础上,也能获得尽可能强的图像语义信息


  • 35
    点赞
  • 137
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值