文章的主要贡献:
- 速度:带atrous算法的DCNN可以保持8FPS的速度,全连接CRF平均推断需要0.5s;
- 准确:在PASCAL语义分割挑战中获得了第二的成绩;
- 简单:DeepLab是由两个非常成熟的模块(DCNN和CRFs)级联而成。
一、概述
自LeCun(1998)以来,DCNN一直被选作版面识别的方法,如今已经成为高级视觉研究的主流,提高了计算机视觉性能,广泛应用于图像分割,对象检测,细粒度分类等。相比于传统的视觉算法(SIFT或HOG),DCNN以其end-to-end(端到端)方式获得了很好的效果。这个依赖于DCNN对图像转换的平移不变性,根本是源于重复的池化层和下采样组合。平移不变性增强了对数据分层抽象的能力,但同时可能会阻碍低级视觉任务,例如姿态估计、语义分割等,在这些任务中语义分割更倾向于精确的定位而不是抽象的空间关系。
由此文章提出了DCNN的两个障碍:(1)信号下采样;(2)空间不敏感性。