Detection and Segmentation
首先要区分计算机视觉中几个任务的概念。
Semantic Segmentation:根据图片中各个像素的语义进行像素的切分。
classification+Localization:将图片中的单一目标检测出来,并且用矩形框将其框出。
Object Detection:将图片中的不同目标用矩形框框出,与classification+location的区别在于识别物体的多少。
Instance Segmentation:将图片中的目标与背景分割开,与semantic segmentation类似。
Semantic Segmentation
一种方法是用sliding window,这种方法是将图片中每一个window范围内的像素进行分类,显然这种方法的计算量很大。
可以用卷积神经网络来求,但是由于最终输出的尺寸与输入图片的尺寸相同,如果在过程中不对图片的尺寸进行缩减,那么直接是用卷积神经网络的计算量会特别大。
针对该问题采用的方法是先降低尺寸,再通过一定的方法增大尺寸,网络结构如图:
这里用到了两种方法:1. unpooling; 2.transpose convolution