Dilated Convolution

最新推荐文章于 2025-09-11 23:57:53 发布

原创最新推荐文章于 2025-09-11 23:57:53 发布 · 2.2w 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #语义分割 #感受野

深度学习基础专栏收录该内容

18 篇文章

订阅专栏

本文介绍了一种用于图像语义分割的技术——空洞卷积(Dilated Convolutions)，它可以在不降低分辨率的情况下扩大感受野，从而更好地整合全局信息。此方法克服了传统方法中因下采样导致的信息损失问题。

本次介绍一篇有关语义分割的文章，其核心思想是如何不失分辨率的扩大感受野，该方法已被caffe默认支持。该思想也可以应用到目标检测上来。

文章链接：《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》

github项目链接： https://github.com/fyu/dilation

Introduction

什么是图像语义分割？

图像语义分割可以看作是pixel级别的分类，如下图，判断每一个像素属于哪一类目标。

float

还有其它一些应用比如图像去噪、关键点检测、超分辨图像重建等，这些应用与语义分割有着相同的需要着重考虑的地方：

(1) 像素级别的精度，即怎样处理局部信息；

(2) 目标级别的分割，即怎样整合全局信息；

为了解应对上面的问题，之前主要有两种处理策略：

(1) FCN系列，通过不断pooling下采样来得到更大感受野，最后反卷积回去原图尺寸；

(2) 金字塔系列，将图像resize到多个尺度分别分割，最后整合分割结果；

显然，上面两种方式为了获得全局信息(更大的感受野)，所需要的参数量(计算量)都是比较大的。

Dilated Convolutions

直观来讲，Dilated Convolutions就是为了获得大的感受野。

插播一句：何谓感受野？感受野范围内的任意元素变化都会影响到输出。

下图很直观的介绍了什么是 Dilated Convolutions 以及 感受野。

float

(a) 原始的 \(3\times 3\)卷积，1-dilated，感受野为 \(3\times 3\)；

(b) 在(a)的基础上进行 \(3\times 3\)卷积，2-dilated，感受野为 \(7\times 7\)；

(c) 在(b)的基础上进行 \(3\times 3\)卷积，4-dilated，感受野为 \(15\times 15\)；

由于padding和卷积的stride=1，卷积前后feature map大小可以保持不变，但每个元素的感受野指数增大。

Implementation

目前caffe的Convolution层直接支持Dilated操作：

  repeated uint32 dilation = 18; // The dilation; defaults to 1

Dilated Convolution的最大价值是可以不改变feature map的大小而增大感受野。而之前的FCN使用pooling下采样来增大感受野，但随后又不得不通过Deconvolution或者upsampling来增大feature map大小，这样的一小一大总会损失很多信息。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。