Image Segmentation
Fully Convolutional Networks for Semantic Segmentation
CVPR’15
问题
- 这是第一次训练端对端的FCN进行
- 像素级别预测
- 来自监督的预训练
方法
把传统的CNN的FC层换成了卷积层,然后上采样后通过跳接叠加输出
参考
https://arxiv.org/pdf/1411.4038v2.pdf
Multi-Scale Context Aggregation by Dilated Convolutions
ICLR’16
问题
- 图像语义分割问题中下采样会降低图像分辨率、丢失信息
方法
- 提出了膨胀卷积(Dilated Convolution)
收获
- 用膨胀卷积上采样可以在增大感受野的同时保证计算量不变
参考
https://arxiv.org/abs/1511.07122
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
ICLR‘15
问题
- reduced feature resolution,
- existence of objects at multiple scales,
- reduced localization accuracy due to DCNN invariance.
方法
- 对于第一个问题,作者去掉了FCN池化后几层的下采样操作,降低stride并使用hole算法代替上采样。
- 对于第二个问题,作者提出了在卷积操作之前小对给定的feature layer用多种采样率进行 resample
- 即采用多个并行的不同采样率的atrous convolutional layers(ASPP)
- 对于第三个问题,采用一个fully-connected CRF
参考
https://arxiv.org/pdf/1606.00915v1.pdf
Learning to Segment Object Candidates
NIPS’15
方法
Our model is trained jointly with two objectives: given an image patch, the first part of the system outputs a class-agnostic segmentation mask, while the second part of the system outputs the likelihood of the patch being centered on a full object.
参考
https://arxiv.org/pdf/1506.06204v2.pdf
Instance-aware Semantic Segmentation via Multi-task Network Cascades
CVPR‘16
问题
- Semantic segmentation research has recently witnessed rapid progress, but many leading methods are unable to identify object instances
- 即缺少实例分割的方法
方法
成绩: MS COCO 2015 segmentation competition, where we won the 1st place
Our model consists of three networks, respectively differentiating instances, estimating masks, and categorizing objects.
- 基于这样的任务分解,作者提出了 Multi-task Network Cascades (MNCs) 如上图。
- 第一个阶段是回归出物体的bbox
- 第二阶段的输出是对每一个box的proposal进行像素级的mask分割。
- 第三阶段对第一阶段的BB进行特征提取,然后用第二阶段的mask估计进行二值化,然后计算 F M a s t i ( θ ) F i M a s t ( θ ) F i M a s t ( θ ) FMasti(θ)FiMast(θ) F_i^{Mast}(\theta) FMasti(θ)FiMast(θ)FiMast(θ)FiMast(θ) 后用N+1类的Softmax输出
收获
- 当一个任务复杂时,可以分成多个任务组合的形式(参考 MNCs 的方法)
- 设计新的网络时参数要可微
参考
https://www.bbsmax.com/A/WpdKKV8AdV/
https://arxiv.org/pdf/1512.04412v1.pdf
Semantic segmentation using adversarial networks
NIPS Workshop 2016
问题
- While the parameters of these higher-order potentials can be learned, they are limited in number.
方法
- 第一次将GAN用在Semantic segmentation
- 训练两个网络
- 传统分割网络就是生成网络
- 然后在生成网络之后加一个判别网络结构
参考
https://arxiv.org/abs/1611.08408
Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network
ICCV’17
问题
- It aims at assigning a label to each image pixel and needs significant number of pixellevel annotated data, which is often unavailable
- 即数据不够
方法
- 将分割网络视作判别器,使用GAN的生成器扩展训练数据,从而提升训练效果。(本论文提升效果不大)
参考
https://arxiv.org/abs/1703.09695
Mask R-CNN
ICCV‘17
问题
- 之前的方法在 object detection and semantic segmentation 取得很好的效果,作者想扩展到 instance segmentation
- 目标分割的难点在于,它需要正确识别出图像中所有物体的方向,并且要将不同物体精准区分开
方法
- Mask R-CNN 是对 Faster R-CNN 的扩展,
- 与bbox识别并行的增加一个预测每一个ROI的分割mask的分支
- mask分支是应用到每一个ROI上的一个小的FCN(Fully Convolutional Network),以pix2pix的方式预测分割mask
- RoIAlign
- ResNeXt-101+FPN 用作特征提取网络效果最好
收获
- ResNeXt-101+FPN 应该是大多数任务中最强的模型了
- 需要精准的RoI pooling不同尺寸的feature maps可以用RoIAlign
参考
https://arxiv.org/pdf/1703.06870.pdf
Learning to Segment Every Thing
arXiv 1711
问题
- 目前instancce segmentation任务分类种类过少主要是因为分割标注的数量较少
- 而检测框的标注已经覆盖了非常多的种类
- 如果要拓展可分割物体类别数量,则或多或少需要引入弱/半监督的学习方法
方法
- In our work, the parameters of Mask R-CNN’s box head contain class-specific appearance information and can be seen as embedding vectors learned by training for the bounding box object detection task. The class embedding vectors enable transfer learning in our model by sharing appearance information between visually related classes
- 增加一个网络,学习从box head category-specific parameters到mask head category-specific parameters的映射,这样其实就是教会了模型一个问题:给你一个box,圈住了某一个实例,如何把这个实例的mask画出来
参考
https://arxiv.org/abs/1711.10370
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-e44c3c0e64.css" rel="stylesheet">
</div>