8月23日计算机视觉理论学习笔记——目标检测

最新推荐文章于 2024-09-06 09:14:39 发布

Ashen_0nee

最新推荐文章于 2024-09-06 09:14:39 发布

阅读量597

点赞数

文章标签：计算机视觉目标检测学习

本文链接：https://blog.csdn.net/Ashen_0nee/article/details/126480595

版权

系列文章目录

本文为8月23日计算机视觉理论学习笔记——目标检测，分为四个章节：

检测图片中所有物体的：

IoU = (A∩B) / (A∪B)
- 正样本（N 类）：跟 Ground-truth 重合 $\ge 0.5$ ；
- 负样本（1 类）： $I o U < 0.5$ 。
M：在图像上对 CNN 进行 pre-train；
M‘：在 SS 生成的所有区域上对 M 进行 fine-tune。
训练流程：
1. C：在 M’ 的Fc7 特征上训练线性 SVMs 分类器：
  - Hinge loss；
  - 每个类别（N 类）对应一个 SVM 分类器；
  - 正样本：所有 Ground-truth 区域；
  - 负样本：跟 Ground-truth 重合 $I o U < 0.3$ 的 SS 区域。
2. SVM 训练完成后，若完全分类正确，所有正样本的输出概率都大于 0.5，而所有负样本的输出概率都小于 0.5。但会有一部分的负样本的输出概率也大于 0.5，这些样本就称为“False Positives”。把这些 “False Positives” 收集起来，对 SVM 进行二次训练，可提升分类准确度。
3. R：在 M’ 的Fc7 特征上训练 Bounding box 回归模型：
  - 将 SS 提供的 Bounding box 做重新映射 $P \Rightarrow G$ ；
  - 训练输入：
    - 中心位置（x, y）： $P^i = (P_x^i, P_y^i, P_w^i, P_h^i)$ ；
    - 宽高尺寸（w, h）： $G^i = (G_x^i, G_y^i, G_w^i, G_h^i)$ ；
    - P 的 $I o U > 0.6$ 。

SPP 实现了：

RoI pooling 感兴趣区域池化：
- 将 RoI 区域的卷积特征拆分成 H×W 网格（7×7 for VGG）；
- 每个 Bin 内的所有特征进行 Max pooling。

Multi-task loss多任务损失函数：
- $t^u, \upsilon ) = L_{cls}(p, u) + \lambda [u \ge 1] L_{loc}(t^u, \upsilon )$ ；
- 分类器 Loss： $L_{cls}(p, u) = -logp_{u}$ ：
  - 每个 RoI 的概率分布： $p = (p_0, …, p_K)$ ；
- Bounding box 回归 L1 Loss： $L_{loc}(t^u, \upsilon ) = \sum_{i\in \{x, y, w, h\}}smooth_{L1}(t_i^u - \upsilon_i)$ ， $smooth_{L1}(x) = \left\{\begin{matrix} 0.5x^2 \quad if\ |x|<1 \\ |x| - 0.5 \quad otherwise \end{matrix}\right.$ ；
  - 每个 RoI 有 N个Loss；
  - 偏差目标： $\upsilon = (\upsilon_x, \upsilon_y, \upsilon_w, \upsilon_h)$ ；
  - 预测偏差： $t^u = (t^u_x, t^u_y, t^u_w, t^u_h)$ ；
  - 指示函数： $[u\ge 1]$ 。