目标检测学习笔记(一)

1. 基本检测流程

  • 生成候选区域(确定搜索范围)
  • 提取区域特征(将候选区域表示为定长向量)
  • 分类(确实是否包含物体及物体类别)
  • 后处理(对重合度较高的矩形框合并)
包含two-stage和one-stage两种,区别在于是否有候选区域的生成过程

2. R-CNN

RCNN过程

  • 生成候选区域
    传统方法:滑动窗口+金字塔
    selective search:
    • 现有分割方法将图像快速划分为多个区域
    • 基于相似度对相邻区域合并
    • 不断合并区域直至整张图像为一个区域
    • 合并区域过程中产生的所有区域给出矩形框,得出候选窗口
  • CNN+softmax或SVM分类
    • 矩形框resize到相同大小227*227, 适当扩大一点矩形框范围
    • 有监督预训练+fine tuning
  • 边框校准
    • 对(x, y, w, h)坐标及长宽做回归,即对边框精细校准

3. SPP-net

  • 允许任意大小的输入,不需要满足CNN的输入大小相同的要求,同时提升速度
  • 候选矩形框直接通过SPP生成固定长度的特征向量,最后输入到全连接层

4. Fast R-CNN

在这里插入图片描述

  • 保留SPP-Net多尺度信息,简化为ROI-pooling单尺度,可指定划分网格具体大小,整张图上做一次卷积层的计算
  • 多任务学习,整合之前多个单任务,将分类和回归一起训练
  • 两点改进:边框回归采用 s m o o t h smooth smooth L 1 L1 L1 l o s s loss loss,模型更鲁棒;对全连接层权重矩阵改进,截断truncated SVD分解降低复杂度
  • 节省时间,精度也没有降低,甚至可能比之前好

4. Faster R-CNN

  • 优化候选框的生成过程,RPN网络,采用CNN结构生成候选区域,生成候选框的CNN和分类的CNN共享卷积层;
  • Anchor box:滑动窗口预先设定具有不同尺度,不同长宽比的矩形框;按Ground Truth标定这些anchor box的正负,于是,传入RPN网络的样本数据被整理为anchor box(坐标)和每个anchor box是否有物体(二分类标签)RPN网络将每个样本映射为一个概率值和四个坐标值,概率值反应这个anchor box有物体的概率,四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来,作为RPN网络的目标训练。
    由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程,被传入R-CNN子网络,进行多分类和坐标回归,同样用多任务损失将二者的损失联合。
  • 训练方式
    在这里插入图片描述

5. R-CNN系列比较

在这里插入图片描述

5. R-FCN, FPN, Mask-RCNN

6. YOLO

  • 将图像划分成网格grid,预测网格内边框信息;
  • 物体边框预测以整张图特征为输入,充分的上下文信息,背景误检少;
  • 存在的问题:小目标问题,密集排布的物体,检测框的准确性不够高

7.SSD (single-shot mutli-box detector)

  • default box 类似anchor box,不同长宽比物体用不同的predictor;不同于RPN的点是既要给出是否有物体,还要给出具体类别,one-stage
  • 多尺度,在不同尺度特征图上预测;非极大值抑制去除冗余边框
  • multi-box:default box的设计及训练策略
    在这里插入图片描述

8. DSSD (devconvolutional)

  • 解决SSD的小目标问题,提供上下文信息,融合深层特征和浅层特征;深层特征由反卷积提供
  • 更加复杂的预测模块,跨层连接的卷积结构预测

9. RetinaNet

  • 主要解决单阶段检测器精度不准中样本不平衡问题(背景较多),
    1. 背景易区分为模型学习提供的信息有限
    2. 背景数量较多可能学习到不好的模型
  • 现有的方法,采样,OHEM难例挖掘,但是只使用部分样本
  • RetinaNet给全部样本赋予权重,focal loss;误分严重的样本权重大
  • 速度和单阶段检测器相仿,精度比双阶段检测器精度高

9. 评价标准

  • 交并比(IOU)
  • 匹配策略:
    1. 贪心算法;
      按照得分从高到低排列,搜索满足交并比阈值的检测框
      大部分数据集的评测方式
    2. 匈牙利算法;
      将匹配建模成一个分配问题,最大化交并比
      FDDB人脸检测数据集采用这种方式评价
  • 检测框匹配:
    —— 动态交并比阈值
    a. 不同大小的框对交并比的“敏感程度”不同
    b. ImageNet 评测较小物体时会适当放宽阈值
    ——按条件匹配/忽略框
  • 具体评价指标 在这里插入图片描述
  • PR曲线:纵轴精确率,横轴召回率
  • 平均精确率
    ——AP(average precision):不同召回率下的平均
    均匀计算11个不同召回率下 R e c a l l ∈ 0 , 0.1 , 0.2 , . . . 1.0 Recall \in {0, 0.1, 0.2, ... 1.0} Recall0,0.1,0.2,...1.0
    计算PR曲线下面积
    ——mAP(mean average precision):不同类别下的平均
    ——mmAP(mean mAP):不同IOU阈值下的平均,很少使用,
    一般分别给出各个阈值下的mAP

引用内容:深度学习目标检测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值