目标检测算法——单次目标检测器

最新推荐文章于 2024-04-24 08:15:00 发布

FLY

最新推荐文章于 2024-04-24 08:15:00 发布

阅读量2.7k

点赞数

分类专栏：目标检测文章标签：目标检测

目标检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于区域的检测器Faster R-CNN 中，在分类器之后有一个专用的候选区域网络。它的检测精度很高，但是处理速度却不够。考虑通过减少每个ROI的工作量来解决这个问题，于是寻求在一个步骤内得到边界框和类别的方法，这就是单次目标检测器和基于区域的检测器的根本区别。

基于滑动窗口进行预测
这个概念和 Faster R-CNN 中的锚点类似。区别在于Faster R-CNN中是分两支路来分别预测类别和实现边框回归的，而单次检测器会同时预测边界框和类别。在单次目标检测器中，如果我们有一个 8 × 8 特征图，并在每个位置做出 k 个预测，即总共有 8 × 8 × k 个预测结果，在每个像素位置，有K个固定不同形状大小的初始锚点，使用K个锚点在每个位置做出一一对应的K个预测。
在 Faster R-CNN 中，我们使用卷积核来做 5 个参数的预测：4 个参数对应某个锚点的预测边框，1 个参数对应 objectness 置信度得分。因此使用3× 3× D × 5 卷积核将特征图从 8 × 8 × D 转换为 8 × 8 × 5。而在单次检测器中，卷积核还预测 C 个类别概率以执行分类（每个概率对应一个类别），因此我们应用一个 3× 3× D × 25 卷积核将特征图从 8 × 8 × D 转换为 8 × 8 × 25（此处C=20），即在每个位置做出 k 个预测，每个预测有 25 个参数。
SSD
单次检测器通常需要在准确率和实时处理速度之间进行权衡。它们在检测太近距离或太小的目标时容易出现问题。为了解决上述问题SSD使用了使用多尺度特征图用于检测的方法。以下是SSD框架示意图。
在这里插入图片描述
SSD框架（图源：https://arxiv.org/pdf/1512.02325.pdf）

SSD 使用卷积网络中较深的层来检测目标，事实上图像的空间分辨率已经被显著降低，且可能已无法定位在低分辨率中难以检测的小目标。如果出现了这样的问题，则需要增加输入图像的分辨率。

YOLO
YOLO是指指标准化、实时的目标检测。最初版本的YOLO处理速度最高能比R-CNN快1000倍，这也是单次目标检测器的巨大优势。
在这里插入图片描述
YOLO框架（图源：https://arxiv.org/pdf/1506.02640.pdf）

然而最初版YOLO精度却远不及R-CNN，因为它并没有像SSD一样使用多尺度特征图来做独立的检测。相反，它将特征图部分平滑化，并将其和另一个较低分辨率的特征图拼接。例如，YOLO 将一个 28 × 28 × 512 的层重塑为 14 × 14 × 2048，然后将它和 14 × 14 ×1024 的特征图拼接。之后，YOLO 在新的 14 × 14 × 3072 层上应用卷积核进行预测。仅仅利用两级深层卷积特征图进行目标检测，无法达到SSD检测小目标时的效果。

针对以上问题，YOLO作者提出了v2版本，它能检测9000种不同类别的目标。YOLO v2的主要改进是提高召回率和定位能力。YOLO v2 基于一个新的分类模型–Darknet19，使用全局平均池化，使用 Batch Normilazation 来让训练更稳定，加速收敛，使模型规范化。处理一张图片只需要 55.8 亿次运算，在 ImageNet 上达到 72.9% top-1 精确度，91.2% top-5 精确度。
在这里插入图片描述
YOLO和YOLOv2对比（图源：https://arxiv.org/pdf/1612.08242.pdf）
以下是 YOLO 论文中不同检测器的 mAP 和 FPS 对比。YOLOv2 可以处理不同分辨率的输入图像。低分辨率的图像可以得到更高的 FPS，但 mAP 值更低。

不同检测器的 mAP 和 FPS 对比（图源：https://arxiv.org/pdf/1612.08242.pdf）
后续改进的YOLO3还添加了特征金字塔（类似FPN）进行多尺度预测，以更好地检测小目标，具有更好的基础分类网络（类ResNet）和分类器 darknet-53。以下是不同检测器的准确率和速度的权衡。
在这里插入图片描述
速度对比（图源：https://pjreddie.com/media/files/papers/YOLOv3.pdf）
时间都是在采用 M40 或 Titan X 等相同 GPU 下测量的。YOLOv3 在实现相同准确度下要显著地比其它检测方法快。与需要数千张单一目标图像的 R-CNN 不同，它通过单一网络评估进行预测。这令 YOLOv3 非常快，一般它比 R-CNN 快 1000 倍、比 Fast R-CNN 快 100 倍。

FLY

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
目标检测算法——单次目标检测器

基于区域的检测器Faster R-CNN 中，在分类器之后有一个专用的候选区域网络。它的检测精度很高，但是处理速度却不够。考虑通过减少每个ROI的工作量来解决这个问题，于是寻求在一个步骤内得到边界框和类别的方法，这就是单次目标检测器和基于区域的检测器的根本区别。基于滑动窗口进行预测这个概念和 Faster R-CNN 中的锚点类似。区别在于Faster R-CNN中是分两支路来分别预测类别...
复制链接

扫一扫