“微信公众号”
本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/erRlLajvOYmwcfZApNOzIw
本文同步更新在我的知乎专栏里,地址:https://zhuanlan.zhihu.com/p/39542237
本文主要对论文《Multi-Scale Context Aggregation by Dilated Convolutions》进行总结。
论文地址:
https://arxiv.org/abs/1511.07122
源码地址:
https://github.com/fyu/dilation
摘要
针对图像语义分割中像素点级别的密集预测分类,提出了一种新的卷积网络模块。通过扩张(空洞)卷积进行多尺度上下文信息聚合而不降低特征图的大小。扩张卷积支持感受野的指数增长。
1. 前言
(1)什么是图像语义分割?
图像语义分割可以说是图像理解的基石性技术,在自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备应用中举足轻重。我们都知道,图像是由许多像素(Pixel)组成,而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组(Grouping)/分割(Segmentation)。图像的语义分割又属于密集预测(dense prediction)。
图1:图像语义分割
图像语义分割的意思就是机器自动分割并识别出图像中的内容,比如图1中给出一个人骑摩托车的照片,机器判断后应当能够生成右侧图,红色标注为人,绿色是车(黑色表示back ground)。
(2)论文思想
传统的图像分类网络通常通过连续的pooling或其他的下采样层来整合多尺度的上下文信息,这种方式会损失分辨率。而对于稠密预测(dense prediction)任务而言,不仅需要多尺度的上下文信息,同时还要求输出具有足够大的分辨率。
为了解决这个问题,以前的论文做法是:
1)