一、Abstract
1.基于VGG-16网络
2.对输入图像每一个proposal使用网络进行训练,结果由各个segmentation map结合得到
3.设计的网络减少了已存在方法的限制,结果PASCAL VOC 2012数据集 72.5%的accuracy
二、Introduction
CNN广泛应用于各种visual recognition问题,例如,image classification,object detection,semantic segmentation, visual tracking和action recognition。
最近,semantic segmentation算法常被用来解决CNN上的pixel-wise labeling问题,常用方法是将CNN转换成FCN(全连接网络)。FCN可以得到一个对图像各个区域进行分类的粗糙标签图,然后使用反卷积(实际上是双线性插值)进行pixel-labeling。之后可以选择使用CRF进行更好的分割。
基于FCN的semantic segmentation收到一些关键的限制
(1)图片中物体过大会导致分裂,过小则会导致丢失。一些方法采用skip structure,但这不是问题的基本解。
(2)由于标签图过于粗糙,反卷积程序过于简单,detailed structures总是丢失或者被平滑掉,文章中以FCN为例,很难重建边界上高度非线性的结构。最近的方法使用CRF减轻问题。