目标检测算法
一、目标检测
1.1 目标检测算法分类
- 两步走的目标检测:先进行区域推荐,再进行目标分类
- 代表:R-CNN、SPP-net、Fast R-CNN、Faster R-CNN
- 端到端的目标检测:采用一个网络一步到位
- 代表:YOLO、SSD
1.2 目标检测任务
1.2.1 分类原理
- 常见的是输入一张图片,经过网络中的卷积、激活、池化,最后加入全连接层达到分类概率的效果
1.2.2 分类的损失与优化
- 在训练时需要计算每个样本的损失,cnn做分类时使用softmax函数计算结果,损失为交叉熵损失
1.2.3 任务
- 目标检测不仅仅是简单的一个图片输出一个分类的结果,还需要输出图片中目标的位置信息,主要评估指标是iou
- 物体位置:
- (x,y,w,h) 叫做bounding box (bbox):x,y表示物体中心点的位置,w,h表示中心点距物体两边的长宽
- xmin,ymin,xmax,ymax:物体位置的左上角、右下角坐标
1.3 目标定位简单思路
- 分类时是直接输出各个类别的概率,可以在网络的最后输出加上位置信息
1.3.1 回归位置
- 增加一个全连接层,FC1、FC2
- FC1:做为类别的输出
- FC2:做为物体位置数值的输出
- 分类概率用交叉熵损失,位置信息用MSE均方误差损失(L2损失)
1.3.2 两种Bounding box名称
- Ground-truth bounding box:图片中真实标记的框
- Predicted bounding box:预测时标记的框