【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

最新推荐文章于 2022-11-02 15:57:08 发布

Jie Ou

最新推荐文章于 2022-11-02 15:57:08 发布

阅读量584

点赞数

分类专栏：机器学习深度学习计算机视觉文章标签： decoder

本文链接：https://blog.csdn.net/github_36923418/article/details/103121181

版权

深度学习同时被 3 个专栏收录

48 篇文章 1 订阅

订阅专栏

机器学习

45 篇文章 1 订阅

订阅专栏

计算机视觉

26 篇文章 1 订阅

订阅专栏

一、这是google的一篇探索的文章，探讨decoder结构的一篇文章

二、主要贡献点

1、探讨了不同的几种decoder的优劣，提出自己的上采样方案

2、提出针对上采样的residual connection

3、横向多任务对比各种不同方案

三、不同结构decoder的对比

Transposed Convolution：这个也是我们常说的“反卷积” “上采样卷积”，但是要注意这并不是卷积的“反操作”，而是一种类似普通上采样的操作。具体过程分为两步：1、根据放大倍数，填0；2、普通卷积操作。下面这张图非常清晰的显示了，整个过程，3x3的反卷积，总体stride=2.从结构上谈这个模块的缺点的话，我认为主要是输出map的每个pixel的来源不平衡，有的来源2个，有的4个，有的只有1个。3x3的卷积核能否应对h，w较大时，产生一个较好的soomth系数，对于feature map的每个区域都适用？

Decomposed Transposed Convolution：这个如果熟悉inception的人，其实很好理解，把3x3的卷积拆成1x3，和3x1，这样参数就少了，那么整个操作流程就是：先竖着填0，卷积，横着填0，卷积。这是第一种的严格子集。

Separable Transposed Convolution : 这个就是分离卷积，先通道，在1x1，依然是减少参数。这是第一种的严格子集。

Depth To Space ：可以搜下pixel shuffle，基本上就是这个意思。这个会带入“对齐问题”，因为同一组feature maps，虽然不同通道，但是计算来源都是一样的。The drawback of this approach is that it introduces alignment artifacts.为什么呢？我没办法给出一个理论上的解释。有没有人解释下？

Bilinear Upsampling ：增加显存的同时，后续的卷积也会需要更多的操作。

Bilinear additive upsampling ：借鉴 “depth to space”，不同的在于，上采样后，这里直接用加法了，输出的feature map，可以发现，每个pixel来源都是平衡的。

四、上采样residual

用作者的Bilinear additive upsampling + conv（通道增加4倍）输出的为X',在把原始输入经过普通的bilinear upsample得到 X'',加起来就是了。

下面这个图的skip，就是我们Unet常用的那种线，这也基本上证明了，这个skip是有效的，但是作用不是特别大。

Jie Ou

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

一、这是google的一篇探索的文章，探讨decoder结构的一篇文章二、主要贡献点 1、探讨了不同的几种decoder的优劣，提出自己的上采样方案 2、提出针对上采样的residual connection 3、横向多任务对比各种不同方案三、不同结构decoder的对比TransposedConvolution：这个也是我们常说的“反卷...
复制链接

扫一扫

专栏目录