《吴恩达深度学习》04卷积神经网络（第3周目标检测）

最新推荐文章于 2022-01-25 00:14:28 发布

ZJ_Windy_Feng

最新推荐文章于 2022-01-25 00:14:28 发布

阅读量309

点赞数

分类专栏：深度学习理论学习

本文链接：https://blog.csdn.net/fzj0121/article/details/105782547

版权

15 篇文章 0 订阅

订阅专栏

04. 卷积神经网络

输出准确的边界框
YOLO算法：You Only Look Once
（1）论文：Redmon et al. 2015. You Only Look Once: Unified real-time object detection.
（2）输入：（ $3\times3网格$ ，通常实现时更精细，如 $19\times19$ ）
（3）将前述图像定位算法应用到每个分格中。YOLO算法将目标分配给目标中心点所在分格。
（4）目标输出： $3\times3\times8$
并不是要算法在每个格子内进行重复计算，而是应用卷积实现同时进行。
边界框的具体实现
（1）定义每个分格左上角为 $(0, 0)$ ，右下角为 $(1, 1)$ 。
（2）根据中心点位置给出 $b_x, b_y)$ 。
（3）根据边界框大小，给出 $b_h, b_w)$ 。

用来评价目标检测算法
评价目标定位

（1）交并比函数（IoU）
$IoU=\frac{size\space of\space yellow}{size\space of\space green}$
（2）若 $IoU\geq0.5$ ，则定位正确。（0.5是人为设定的阈值。）

重叠的目标
（1）示意图

（2）定义2个Anchor Box（实际中可能会要5个以上）

（3）输出变为
$y=\left[\begin{matrix} p_c\\ b_x\\ b_y\\ b_h\\ b_w\\ c_1\\ c_2\\ c_3\\ p_c\\ b_x\\ b_y\\ b_h\\ b_w\\ c_1\\ c_2\\ c_3 \end{matrix}\right]$
其中前8维与第1个Anchor Box有关，后8维与第2个Anchor Box有关。
Anchor box算法
（1）之前
训练图像中的每个目标分配至包含其中心点的分格中。
（2）具有两个anchor boxes的方法
训练图像的每个目标分配至包含目标中心点的分格，以及具有最高 $I o U$ 的anchor box。

训练集

（1）假设需要检测三种目标：行人，车辆，摩托车。
（2）假设使用2种anchor box，则输出为 $3\times3\times2\times8$ （事实上输出的维度为 $3\times3\times16$ ）。
预测
输出非最大抑制的输出值

（1）对于每个分格，得到2个预测的边界框。
（2）得到低概率预测值。
（3）对于每个类别，使用非最大抑制方法得到最终输出结果。

本节内容在实践中使用频率不高。
RCNN：Region CNN

（1）只在部分窗口中进行卷积算法。
（2）参考文献：Girshik et. al. 2013. Rich feature hierarchies for accurate object detection and semantic segmentation.
（3）首先进行图像分割
更快的算法
（1）R-CNN：提出区域，对于每个区域进行分类，输出标签和边界框。
（2）Fast R-CNN：提出区域，对于所有区域使用卷积实现滑动窗口分类。
（3）Faster R-CNN：使用卷积网络提出区域。