学习目标检测,首先要了解图像分类。图像分类任务虽然简单,应用范围也有限,但是它是计算视觉的基础,图像分类上的成功表明深度学习网络具有学习并理解图像的能力。目前计算机视觉的其他任务使用的basemodel都是在image classification上取得成功的网络结构。
常用的深度学习经典网络有:
AlexNet(2012)
ZFNet(2013)
VGG(2014)
GoogleNet(2014)
InceptionNet(2015)
ResNet(2016)
DenseNet(2016)
常用的目标检测算法有Fast-RCNN和YOLO算法。
1 semantic segmentation(语义分割)
通常我们所说的目标分割是语义分割,语义分割就是需要区分图像中的每一个像素点,对于同一物体不同对象不单独分割出来。
2 Instance segmentation(实例分割)
实例分割其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体。
目前常用的实例分割算法是Mask R-CNN。
Mask R-CNN 是通过向 Faster R-CNN 添加一个分支来进行像素级分割,该分支输出一个二进制掩码0,1,该掩码表示给定像素是否为目标对象的一部分:该分支是基于CNN特征映射的全卷积网络。将给定的CNN特征映射作为输入,输出为一个矩阵,其中像素属于该对象的所有位置用 1 表示,其他位置则用 0 表示,这就是二进制掩码。
3 Panoramic segmentation(全景分割)
全景分割是语义分割与实例分割的结合。跟实例分割不同的是:实例分割只对图像中的目标进行检测,并对检测到的目标物体进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。