图像计算机感知的三重奏:
一重奏:图像的分类Image Classification,图像感知的基础,图像的检测与分割都是建立在分类的基础上。如图a.
经典的CNN有Alexnet,VGG,Resnet,inception,inception-resnet,mobilenet,Densenet,Nasnet,EfficientNet等等。
二重奏:Object detection(目标检测),如图b,再分类基础上还有定位物体的方框位置。简单来说就是图片里面有什么?分别在哪里?(把它们用矩形框框住)
目标检测算法有 R-CNN,Fast R-CNN,Faster R-CNN,SSD和基于YOLO的目标检测的算法。
三重奏:Segmentation分割包括语义分割(semantic segmentation)和实例分割(instance
segmentation),前者是对背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。
Panoramic segmentation(全景分割)
全景分割是语义分割和实例分割的结合。跟实例分割不同的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。
语义分割的网络有FCN,Segnet,Unet,DeepLab,Refinenet。
实例分割的网络有Mask R-CNN