1. 基本检测流程
- 生成候选区域(确定搜索范围)
- 提取区域特征(将候选区域表示为定长向量)
- 分类(确实是否包含物体及物体类别)
- 后处理(对重合度较高的矩形框合并)
包含two-stage和one-stage两种,区别在于是否有候选区域的生成过程
2. R-CNN
- 生成候选区域
传统方法:滑动窗口+金字塔
selective search:- 现有分割方法将图像快速划分为多个区域
- 基于相似度对相邻区域合并
- 不断合并区域直至整张图像为一个区域
- 合并区域过程中产生的所有区域给出矩形框,得出候选窗口
- CNN+softmax或SVM分类
- 矩形框resize到相同大小227*227, 适当扩大一点矩形框范围
- 有监督预训练+fine tuning
- 边框校准
- 对(x, y, w, h)坐标及长宽做回归,即对边框精细校准
3. SPP-net
- 允许任意大小的输入,不需要满足CNN的输入大小相同的要求,同时提升速度
- 候选矩形框直接通过SPP生成固定长度的特征向量,最后输入到全连接层
4. Fast R-CNN
- 保留SPP-Net多尺度信息,简化为ROI-pooling单尺度,可指定划分网格具体大小,整张图上做一次卷积层的计算
- 多任务学习,整合之前多个单任务,将分类和回归一起训练
- 两点改进:边框回归采用 s m o o t h smooth smooth L 1 L1 L1 l o s s loss loss,模型更鲁棒;对全连接层权重矩阵改进,截断truncated SVD分解降低复杂度
- 节省时间,精度也没有降低,甚至可能比之前好
4. Faster R-CNN
- 优化候选框的生成过程,RPN网络,采用CNN结构生成候选区域,生成候选框的CNN和分类的CNN共享卷积层;
- Anchor box:滑动窗口预先设定具有不同尺度,不同长宽比的矩形框;按Ground Truth标定这些anchor box的正负,于是,传入RPN网络的样本数据被整理为anchor box(坐标)和每个anchor box是否有物体(二分类标签)RPN网络将每个样本映射为一个概率值和四个坐标值,概率值反应这个anchor box有物体的概率,四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来,作为RPN网络的目标训练。
由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程,被传入R-CNN子网络,进行多分类和坐标回归,同样用多任务损失将二者的损失联合。 - 训练方式
5. R-CNN系列比较
5. R-FCN, FPN, Mask-RCNN
6. YOLO
- 将图像划分成网格grid,预测网格内边框信息;
- 物体边框预测以整张图特征为输入,充分的上下文信息,背景误检少;
- 存在的问题:小目标问题,密集排布的物体,检测框的准确性不够高
7.SSD (single-shot mutli-box detector)
- default box 类似anchor box,不同长宽比物体用不同的predictor;不同于RPN的点是既要给出是否有物体,还要给出具体类别,one-stage
- 多尺度,在不同尺度特征图上预测;非极大值抑制去除冗余边框
- multi-box:default box的设计及训练策略
8. DSSD (devconvolutional)
- 解决SSD的小目标问题,提供上下文信息,融合深层特征和浅层特征;深层特征由反卷积提供
- 更加复杂的预测模块,跨层连接的卷积结构预测
9. RetinaNet
- 主要解决单阶段检测器精度不准中样本不平衡问题(背景较多),
- 背景易区分为模型学习提供的信息有限
- 背景数量较多可能学习到不好的模型
- 现有的方法,采样,OHEM难例挖掘,但是只使用部分样本
- RetinaNet给全部样本赋予权重,focal loss;误分严重的样本权重大
- 速度和单阶段检测器相仿,精度比双阶段检测器精度高
9. 评价标准
- 交并比(IOU)
- 匹配策略:
- 贪心算法;
按照得分从高到低排列,搜索满足交并比阈值的检测框
大部分数据集的评测方式 - 匈牙利算法;
将匹配建模成一个分配问题,最大化交并比
FDDB人脸检测数据集采用这种方式评价
- 贪心算法;
- 检测框匹配:
—— 动态交并比阈值
a. 不同大小的框对交并比的“敏感程度”不同
b. ImageNet 评测较小物体时会适当放宽阈值
——按条件匹配/忽略框 - 具体评价指标
- PR曲线:纵轴精确率,横轴召回率
- 平均精确率
——AP(average precision):不同召回率下的平均
均匀计算11个不同召回率下 R e c a l l ∈ 0 , 0.1 , 0.2 , . . . 1.0 Recall \in {0, 0.1, 0.2, ... 1.0} Recall∈0,0.1,0.2,...1.0
计算PR曲线下面积
——mAP(mean average precision):不同类别下的平均
——mmAP(mean mAP):不同IOU阈值下的平均,很少使用,
一般分别给出各个阈值下的mAP
引用内容:深度学习目标检测