目标检测深度学习方法综述（二）

最新推荐文章于 2024-06-29 15:52:45 发布

shengshijieshao

最新推荐文章于 2024-06-29 15:52:45 发布

阅读量820

点赞数

分类专栏：神经网络文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/sun_shine56/article/details/104845782

版权

神经网络专栏收录该内容

6 篇文章 0 订阅

订阅专栏

0.前言

本来准备将一些模型汇总成一篇博客的，但是不知道为啥写了一万多字之后这博客草稿就保存不了了，所以我将剩下的部分放到这篇博客中来（~~奇怪的BUG~~ ）前文地址：https://blog.csdn.net/sun_shine56/article/details/104820784
我们接着上篇文章的章节来好吧。

4.4 SSD算法

SSD 算法是 Faster RCNN 和 YOLO 的结合：

采用了基于回归的模式(类似于YOLO)，在一个网络中直接回归出物体的类别和位置，因此检测速度很快。
同时也利用了基于区域的概念(类似于Faster RCNN)，在检测的过程中，使用了许多候选区域作为ROI。
骨干网络：
SSD的骨干网络是基于传统的图像分类网络，例如 VGG，ResNet 等。本文以 VGG16 为例进行分析。如下图所示，经过10个卷积层(con. layer) 和 3个池化层(max pooling) 的处理，我们可以得到一个尺寸为 38×38×512 的特征图 (feature map)。下一步，我们需要在这个特征图上进行回归，得到物体的位置和类别。
骨干网络
回归 (Regression)：
和 YOLO 的回归操作相似，首先我们先考虑在特征图的每个位置上，有且只有一个候选框(default box)的情况。

位置回归：检测器需要给出框中心偏移量 (cx,cy)，相对于图片尺寸的宽度和高度 (w,h)，总计需要回归四个值。
分类: 对于每一个 bounding box，我们需要给出 20个类别+1个背景类的得分(score)。

对于每一个位置，我们需要一个25维的向量来存储检测物体的位置和类别信息。对于我们的38×38的特征图，我们需要一个维度为 38×38×25 的空间来存储这些信息。因此，检测器需要学习特征图(38×38×512)到检测结果(38×38×25)的映射关系。这一步转换，使用的是卷积操作：使用25个3×3的卷积核，对特征图进行卷积。到这里，我们已经完成了在每个位置上回归一个框的操作。
**多个候选框：**SSD在每个位置上，希望回归k个基于不同尺寸的框。因此在每个位置上需要 25×k 维的空间，存储这些框的回归和分类信息，因而卷积操作变成了使用 25×k个3×3的卷积核，来获得 38×38×25k 维度的检测结果图(score map)。
**多个特征图：**对于神经网络，浅层的特征图包含了更较多的细节信息，更适合进行小物体的检测；而较深的特征图包含了更多的全局信息，更适合大物体的检测。因此，通过在不同的特征图上对不同尺寸的候选框进行回归，可以对不同尺寸的物体有更好的检测结果。
多个特征图
在这里插入图片描述
实验结果(部分)

SSD的检测精度和速度都非常出色，76.8 mAP 和 22FPS 超过了Faster RCNN和YOLO

4.5 RetinaNet(Focal Loss)

Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。
关于RetinaNet的详细信息大家可以参考下面这两位写的详解，我怕写多了这个系列还有三、四。。。。。
https://zhuanlan.zhihu.com/p/59910080
https://blog.csdn.net/JNingWei/article/details/80038594

5.基于anchor-free的算法：CornerNet，CenterNet，FCOS

回顾一下，目标检测分单步和两步，单步法的历史中从SSD和YOLO-2开始引入锚框(anchor box)，而两步法直到Faster RCNN才开始采用“锚”的想法。
什么是锚框呢?其实就是固定的参考框。锚框的出现，使得训练时可以预设一组不同尺度不同位置的锚框，覆盖几乎所有位置和尺度，每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标，这样问题就转换为"这个锚框中有没有认识的目标，目标框偏离锚框多远"的问题。
然而，自从2018年4月份以来，许多大牛们发现了anchor-based模型的一些缺点，进而提出了anchor-free的模型。
anchor-base存在的问题：

•与锚点框相关超参 (scale、aspect ratio、IoU Threshold) 会较明显的影响最终预测效果；

•预置的锚点大小、比例在检测差异较大物体时不够灵活；

•大量的锚点会导致运算复杂度增大，产生的参数较多；

•容易导致训练时negative与positive的比例失衡。

Anchor-free算法的优点：

•使用类似分割的思想来解决目标检测问题；

•不需要调优与anchor相关的超参数；

•避免大量计算GT boxes和anchor boxes 之间的IoU，使得训练过程占用内存更低。

anchor-free的技术包括基于Keypoint与Segmentation两类。其中基于Keypoint技术包括CornerNet，CenterNet，CornerNet-Lite等，基于Segmentation的技术包括FSAF，FCOS，FoveaBox等。
emmm大家可以通过这个链接去看一看cornernet和centernet：https://blog.csdn.net/qiu931110/article/details/89430747
关于FCOS我推荐大家阅读：https://blog.csdn.net/qiu931110/article/details/89073244
或者直接看我对原文的翻译：https://blog.csdn.net/sun_shine56/article/details/104880477

6.轻量级的目标检测深度学习模型

随着智能移动设备的普及和算法商业落地的需要，低功耗，低成本的轻量级模型逐渐走入了大众的视野。
人们通过不断的研究，逐渐将轻量级目标检测深度学习模型分为以下几类：
1.通过将一个普通的卷积分解为一个depth wise的卷积和一个point wise的卷积或者是用组卷积的方式来减少模型参数量，代表有mobileNetV1/V2和shuffleNetV1/V2、IGCV1/2/3，具体内容可参见：https://blog.csdn.net/liuxiaoheng1992/article/details/86528204
2.通过知识蒸馏或者模型剪枝等方式减少网络参数量，这部分可以参考文章：https://blog.csdn.net/HollrayChan/article/details/104378450
最近我看网上有一篇轻量级神经网络架构综述很不错，软件学报的，我不知道为啥就是访问不了。。。http://www.jos.org.cn/1000-9825/5942.htm

7. 3D目标检测模型

我们一般将使用RGB图像进行目标检测，输出物体类别和在图像上的最小包围框的方式称为2D目标检测，而将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。
随着Faster-RCNN的出现，2D目标检测达到了空前的繁荣，各种新的方法不断涌现，百家争鸣，但是在无人驾驶、机器人、增强现实的应用场景下，普通2D检测并不能提供感知环境所需要的全部信息，2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度，但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图Fig.1中，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。
在这里插入图片描述
然后我其实对3D目标检测没啥研究。。。。不过我看网上这有篇博客写的挺全的，链接啥的给的很痛快，在这里和大家分享一下吧。。。
https://blog.csdn.net/wqwqqwqw1231/article/details/90693612?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

致谢

首先感谢我导给我写这篇综述的动力（我导牛逼~）
其次感谢这位仁兄和他的硕士老妈，让我明白了了解一个领域最好的办法是写一篇综述，了解一篇论文的最好方法是死扣每一个细节。
最后感谢网上这些大牛们，我从小白到现在，大部分论文都是看的别人的解析。。。。非常感谢！！！

结语

本来准备认认真真写一篇综述的，但是由于我自己水平有限，涉猎的东西不广又不深，所以本篇综述多用链接，与其说是综述不如说是资源集合，惭愧。
以上是我对过去几年部分目标检测深度学习算法的些许感悟。其中有疏漏谬误之处，欢迎大家留言或私信讨论。

shengshijieshao

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
目标检测深度学习方法综述（二）

0.前言本来准备将一些模型汇总成一篇博客的，但是不知道为啥写了一万多字之后这博客草稿就保存不了了，所以我将剩下的部分放到这篇博客中来（奇怪的BUG ）前文地址：https://blog.csdn.net/sun_shine56/article/details/104820784我们接着上篇文章的章节来好吧。4.4 SSD算法SSD 算法是 Faster RCNN 和 YOLO 的结合：采...
复制链接

扫一扫

专栏目录