对Dilated Convolution理解

本文深入探讨了Dilated Convolution(空洞卷积)在图像语义分割中的应用,通过不损失分辨率的方式扩大感受野,解决了传统卷积网络在密集预测任务中的信息损失问题。文章总结了论文《Multi-Scale Context Aggregation by Dilated Convolutions》,介绍了Dilated Convolution的工作原理,指出其在上下文信息聚合和稠密预测任务中的优势。
摘要由CSDN通过智能技术生成

“微信公众号”


本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/erRlLajvOYmwcfZApNOzIw

本文同步更新在我的知乎专栏里,地址:https://zhuanlan.zhihu.com/p/39542237


本文主要对论文《Multi-Scale Context Aggregation by Dilated Convolutions》进行总结。

论文地址:

https://arxiv.org/abs/1511.07122

源码地址:

https://github.com/fyu/dilation


摘要

针对图像语义分割中像素点级别的密集预测分类,提出了一种新的卷积网络模块。通过扩张(空洞)卷积进行多尺度上下文信息聚合而不降低特征图的大小。扩张卷积支持感受野的指数增长。

1. 前言

(1)什么是图像语义分割?

图像语义分割可以说是图像理解的基石性技术,在自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备应用中举足轻重。我们都知道,图像是由许多像素(Pixel)组成,而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组(Grouping)/分割(Segmentation)。图像的语义分割又属于密集预测(dense prediction)。

图1:图像语义分割

图像语义分割的意思就是机器自动分割并识别出图像中的内容,比如图1中给出一个人骑摩托车的照片,机器判断后应当能够生成右侧图,红色标注为人,绿色是车(黑色表示back ground)。

(2)论文思想

传统的图像分类网络通常通过连续的pooling或其他的下采样层来整合多尺度的上下文信息,这种方式会损失分辨率。而对于稠密预测(dense prediction)任务而言,不仅需要多尺度的上下文信息,同时还要求输出具有足够大的分辨率。

为了解决这个问题,以前的论文做法是:

1) 

  • 5
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值