前言
计算机视觉中有四个主要方向,主要包括:
1,图像分类,分类解决的是这张图是什么的问题。
2,图像定位,定位解决的是某物在图中具体位置的问题。
3,图像检测,检测解决的是这张图中有没有某物,该物在这张图哪个位置的问题。
4,图像分割,分割解决的是图中每一个像素属于哪个物体或者场景的问题。
图像分割又分了2个方向,包括:
a)语义分割(semantic segmentation)
语义分割为图像中的每个像素分配一个类别,如把画面中的所有物体都指出它们各自的类别。如上图中,把图中的人、羊、狗、草地所在像素都分别分类为对应的类别,然后用不同颜色表示出来(注意上图中所有羊都是用蓝色表示的,这一点和实例分割不同)。
语义分割算法主要有:U-Net、SegNet、DeepLab系列、FCN、ENet、ICNet、ShelfNet、BiseNet、DFN和CCNet等网络
b)实例分割(instance segmentation)
与语义分割不同,实例分割只对特定物体进行类别分配(注意上图中所有羊是用不同颜色表示的,这一点和语义分割不同),这一点与目标检测有点相似,但目标检测输出的是边界框和类别,而实例分割输出的是掩膜(mask)和类别。
实例分割算法主要有:FCIS、DeepMask、Mask R-CNN 和 PANet 等网络。
参考网上的资料,下面简单罗列一下这几个方向当前的主要算法。 一,各图像分割算法概述 1.FCN1)论文地址:
https://arxiv.org/abs/1411.4038
2)算法框架图:
FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation)问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全连接层+softmax输出)不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的