目标检测(YOLO,SSD,Efficientdet,RCNN系列)

最新推荐文章于 2025-04-02 07:00:00 发布

不会写作文的李华

最新推荐文章于 2025-04-02 07:00:00 发布

阅读量6.8k

点赞数 7

分类专栏： Pytorch 目标检测文章标签： yolov3 yolov4 SSD faster rcnn

本文链接：https://blog.csdn.net/qq_40195360/article/details/107180262

版权

该博客详细介绍了目标检测中的几个关键模型，包括YOLO系列（YOLOv3和YOLOv4）、SSD、Efficientdet和RCNN系列（Faster R-CNN）。重点讲解了各模型的网络结构、预测和训练流程，如YOLOv4中的CSPDarkNet53、SPP和PANet，SSD的特征金字塔网络，以及Efficientdet的BiFPN和复合缩放方法。此外，还提到了Faster R-CNN的RPN网络和RoI Pooling操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言

目标检测现在已经发展有几年了,自己接触目标检测网络也有很长一段时间了,现在就在这里总结一下我所使用过的目标检测的网络模型,以及他们的优缺点。

一、YOLO 系列

YOLO系列到现在为止已经更新到YOLO V4（V5应该不算吧？）。由于YOLO系列都是一步步升级而来，所以本文直接从V3、V4开始介绍。

1.1 yolo v3

yolo v3 网络

Yolov3是2018年发明提出的，这成为了目标检测one-stage中非常经典的算法，包含Darknet-53网络结构、anchor锚框、FPN等非常优秀的结构。

Yolo的整个网络，吸取了Resnet、Densenet、FPN的精髓，可以说是融合了目标检测当前业界最有效的全部技巧（YOLO V4没出来以前）

Yolov3中,只有卷积层,通过调节卷积步长控制输出特征图的尺寸。所以对于输入图片尺寸没有特别限制。流程图中,输入图片以416x416作为样例。
Yolov3借鉴了金字塔特征图思想,小尺寸特征图用于检测大尺寸物体,而大尺寸特征图检测小尺寸物体。特征图的输出维度为N x N x[3x (4+ 1+80)]，N x N为输出特征图格点数，一共3个Anchor框,每个框有4维预测框数值tr,ty,tw,th , 1维预测框置信度, 80维物体类别数（COCO数据集）。所以第一层特征图的输出维度为13 x 13 x 255。
Yolov3总共输出3个特征图,第一个特征图下采样32倍 ,第二个特征图下采样16倍 ,第3个下采样8倍。输入图像经过Darknet53 (无全连接层),再经过Yoloblock生成的特征图被当作两用,第一用为经过3 x 3卷积层、1 x 1卷积之后生成特征图一 ,第二用为经过1 x 1卷积层加上采样层,与DarkNet53网络的中间层输出结果进行拼接,产生特征图二。同样的循环之后产生特征图三。
concat操作与加和操作的区别:加和操作来源于ResNet思想,将输入的特征图，与输出特征图对应维度进行相加，即y= f(x) + x ; 而concat操作源于DenseNet网络的设计思路,将特征图按照通道维度直接进行拼接,例如8 x 8 x 16的特征图与8 x 8 x 16的特征图拼接后生成8 x 8 x 32的特征图。
上采样层(upsample)：作用是将小尺寸特征图通过插值等方法，生成大尺寸图像。例如使用最近邻插值算法，将13 x 13的图像变换为26 x 26。上采样层不改变特征图的通道数。

其实际情况就是，由于我们使用得是Pytorch，它的通道数默认在第一位，输入N张416x416的图片，在经过多层的运算后，会输出三个shape分别为(N,255,13,13)，(N,255,26,26)，(N,255,52,52)的数据，对应每个图分为13x13、26x26、52x52的网格上3个先验框的位置。

yolo v3 预测流程

yolo v3 训练流程（暂时没梳理出来）

1.2 yolo v4

YOLOV4是YOLOV3的改进版，在YOLOV3的基础上结合了非常多的小Tricks。尽管没有目标检测上革命性的改变，但是YOLOV4依然很好的结合了速度与精度。YOLOV4在YOLOV3的基础上，在FPS不下降的情况下，mAP达到了44，提高非常明显。

#### yolo v4 网络 **主干提取网络**

YOLOV4改进的部分（不完全）

主干特征提取网络：DarkNet53 => CSPDarkNet53

CSPnet结构并不算复杂，就是将原来的残差块的堆叠进行了一个拆分，拆成左右两部分：主干部分继续进行原来的残差块的堆叠；另一部分则像一个残差边一样，经过少量处理直接连接到最后。因此可以认为CSP中存在一个大的残差边。
特征金字塔：SPP，PAN:

最低0.47元/天解锁文章