1、语义分割
概念:对图像中的每个像素做分类,实现像素级别的分类
实例分割与之不同:在相同像素级别上对不同实例进行区分
比如:一张图片中有两头牛,语义分割是将两头牛归为一类,而实例分割会将两头牛进行区分
方法:
(1)滑动窗口:把图片分成小块,使用网络对中心点进行分类
缺点:计算量大,效率低
(2)全卷积网络(FCN):将完整图像输入卷积神经网络,计算出预测像素和label(真实像素)的交叉熵损失,利用反向传播训练网络。
缺点:数据标签制作成本很高,在原图上进行卷积计算量很大
(3)基于方法(2),进行上采样和下采样
下采样的方法又可以分为两种:
1)unpooling
Nearest Neighbor
Bed of Nails
Max Unpooling
2)转置卷积(Transpose convolution)
2、分类和定位
图片中只有一个物体
损失函数包括两部分:
softmax损失,计算分类损失;L2损失,计算预测坐标和实际坐标的损失。
3、目标检测
与分类+定位的不同就是目标检测需要分类和定位的数目不确定
经典方法:
RCNN、Fast R-CNN、Faster R-CNN、YOLO/SSD、mask R-CNN