文章目录
前言
这个专栏的前面一些文章,已经设计到了图像网络,或者说机器视觉的两个主要任务:分类和检测。现在来说说另外一个任务:分割(Segmentation)。
一般来说,分类相对比较简单一点,通过一个基础网络(backbone)就可以完成任务,从LeNet,AlexNet,到ResNet,SENet等,都是通过基础网络完成分类任务。
在分类网络的基础上,加上一些detector head,比如RCNN引入的ROI Pooling,RPN等;YOLO1-5引入的回归,anchor等。就可以完成目标检测的任务。
对于分割任务而言,相当于是要将图像中的每个像素分类,每个像素属于不同的类别,用不同的颜色标记出来。进而形成分割任务(把某个分类的像素从图中抠出来),这对视觉任务的要求提出更高的挑战。
简单的说下难度:
- 分类任务是一张图输出一个类别。
- 目标检测是找出一个ROI区域,输出一个类别。
- 分割是每个像素都要输出一个类别(Dense Prediction)。
从FCN:Fully convolutional networks开始,后续基本上都是通过全卷积网络(改造一些backbone)来完成分割任务,所以分割任务的这个系列就从FCN开始说起。
在另外一篇综述论文中(Image Segmentation Using Deep Learning: A Survey)提到了到2020年的分割任务发展过程,就是从2015年的FCN开始的:
本文详细介绍了FCN(全卷积网络)在语义分割任务中的应用,包括FCN的设计原理、网络改造、上采样方法以及对比实验。全卷积网络克服了传统分割网络的空间信息丢失问题,通过反卷积或转置卷积实现了从分类到像素级别的预测。实验结果显示,FCN在PASCAL VOC、NYUDv2和SIFT Flow数据集上表现出色,速度快且精度高。
订阅专栏 解锁全文
896

被折叠的 条评论
为什么被折叠?



