(一)语义分割与实例分割的区别:
在深度学习层面,分割任务都是像素级任务,语义分割标签数量固定,本质是对于每个像素的分类问题。
而实例分割需要分辨出每个实例,类别其实是不确定的,所以不能算作分类问题。
(二)现阶段实例分割的主要分支
1.proposal-based method
基于区域的二阶段方法:是现阶段精度最高的实例分割方法,首先通过目标检测模型发现感兴趣的区域,之后在这个区域里进行分割。主要包括MaskRCNN、PANet、HTC(Hybrid Task Cascade)
基于区域的一阶段方法:为了弥补一阶段在目标检测中空白,涌现了一波基于一阶段目标检测的实例分割方法,但在精确度和速度之上都没有决定性的优势,不像YOLOV3能够实现实时的目标检测,一阶段的实例分割方法仅能提高一些速度,主要包括RetinaMask
2.Proposal-free method
该类方向想要脱离区域限制,主要因为基于区域的实例分割方法在分割物体边界上不占有优势,使得边界不够精确,同时速度也受到很大的限制,因此提出了Porposal-free方法。该类方法主要采用embedding的思想,将原来的图片图片空间映射到embedding空间(比如映射到d维向量),可以认为是将每个像素转化为一个向量,使得属于相同实例的向量相似度大一些,距离近。不同实例相似度小,距离远。思想有点类似于Triplet loss。然后在对生成的向量进行分组聚类实现实例分割。目前主要的方法有:更改损失函数的(Semantic Instance Segmentation with a Discriminative Loss Function)、更改CNN结构的(semi-convolutional 消除CNN网络的平移不变性)、让网络自我学习的(assciative embedding)等等。
(三)目前面临的困难与挑战
1.实时性
现在很少有实例分割能够实现实现实时,我知道的大概有YOLACT
2.迁移
如何能将语义分割中比较好的结构和框架应用至实例分割中
(四)实例级人体细粒度分割
instance-level human parsing/instance-level human analysis/dense pose estimate
关键词: instance human parsing analysis, part segmentation
来自于human parsing(人体细粒度语义分割,其实人体细粒度语义分割本质上就是语义分割,分类任务,为了引入人的结构特点,形态学束缚,所以一般会引入pose estimate).
除了对人进行实例级分割外,还提供对人的头发,上衣等细粒度进行分割。主要包括parsing rcnn、PGN(Instance-level human parsing via part grouping network [no-detection method])
densepose也相当于人体部分分割
(注:dense pose estimate 主要工作在于将RGB图片于三维立体表面建立对应关系)
(五)分割的各类指标
1.引一下写的比较好的博客
https://blog.csdn.net/lingzhou33/article/details/87901365
补充:
overall IoU:指所有预测与GT交集的和除以预测与GT的并集
mean IoU:指每张图片的预测与GT交集除以预测与GT并集的平均值
其中mIOU和AP指标主要对分割内部像素敏感,对于边界的正确率的提高并不敏感。
(The standard intersection-over-union based metrics for these tasks (mask AP and mIoU) are biased towards object-interior pixels and are relatively insensitive to boundary improvements.)