参考:AI研习社微信公众号
- 语义分割难点:将各个像素点分类到某一实例,再将各个实例(分类结果)与实体(人、道路等)一一对应。
- 出现在真实的理解图像或视频的动作的挑战:关键点检测、动作识别、视频字幕、视觉问题回答等。
- 常用数据集:
PASCAL VOC——train/val 11k张;test 10张;用平均交并比(mIoU)评估图像分割模型的性能
PASCAL-Context——train 10k;val 10k;test 10k
COCO
Cityscapes——包含50个城市的复杂的城市场景分割图,train/val 23.5k;test 1.5k
- 一些网络效果:
FCN——使用ImageNet预训练模型,在2012年的PASCAL VOC上mIoU=62.2%
ParseNet——PASCAL-Context的mIoU=40.4%,2012年的PASCAL VOC 的mIoU=69.8%
卷积与反卷积——2012年的PASCAL VOC的mIoU=72.5%
U-Net——扩展FCN模型用于生物显微镜图像。扩展研究FPN、PSPNet、DeepLabv3
FPN——基于DeepMask和SharpMask框架的FPN在COCO的AR=48.1%
金字塔场景解析网络(PSPNet)——使用COCO的预训ResNet,在2012年的PASCAL VOC的mIoU=85.4%
Mask R-CNN——最好的Mask R-CNN使用ResNeXt提取特征和FPN结构,2016年COCO的AP&