Abstract
本文主要介绍利用卷积神经网络来做语义分割并提升分割效果的方法,包括理论和实用的。首先是设计稠密上采样来产生像素级的预测,这样做有助于捕获并解析出更详细的信息相对于采用双线性的上采样操作。其次在编码阶段提出超空洞卷积网络架构。该结构的主要有点有:
- 有效增加感受野以整合全局信息;
- 解决了由通用空洞卷积网络所带来的棋盘效应。
基于这些网络结构,在街景和KITTI等数据集上已经取得了不俗的表现。
Introduction
所有在分割领域上取得不俗成绩的网络都包含了以下三个关键部分:
- 全卷积网络,可以通过改善网络结构和增加网络深度来提升性能;
- 条件随机场,更多、更合适地利用条件随机场来提升对全局信息的把握;
- 空洞卷积,同等计算量下可以有效提升网络的感受野。
然而本文主要聚焦在编码和解码过程的卷积操作来提升语义分割的效果。在解码阶段,通常会采用双线性的上采样来得到输出的标签层,但是双线性上采样是固定的,且有可能丢失部分重要细节。因此提出稠密的上采样卷积网络来提升性能。在编码阶段,空洞卷积可以在保持网络的分辨率和感受野的基础上避免采用池化或者跨步操作。由于空洞卷积的操作实在卷积核中间插入零来实现的,这使得网络只会获取特定部分的特征(棋盘效应)。为了避免这个问题,本文提出超空洞卷积架构。
本文主要基于语义分割这个应用从卷积网络层面提出两个改善方式,在一定程度上提升了语义分割的效果,特别是解码阶段的操作。