目标检测之Yolov3与Anchor-Free

javastart

已于 2023-01-02 22:40:29 修改

阅读量305

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉 python

于 2023-01-02 22:38:49 首次发布

原文链接：https://blog.csdn.net/DaGongJiGuoMaLu09/article/details/89329018?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1-89329018-blog-112175294.pc_relevant_recovery_v2&depth_1-utm_source=d

版权

深度学习专栏收录该内容

139 篇文章 23 订阅

订阅专栏

原文：目标检测之RCNN、Yolo、SSD、RetinaNet与Anchor-Free_dagongji10的博客-CSDN博客

2.2 Yolo v3（2018）

Yolo-v3 论文比 Yolo-v2 还要随意，具体优化内容主要有：

bbox的预测：基本上还是沿用 Yolo-v2 那一套（对 anchor 的offset），但是 Yolo-v3 使用逻辑回归对每一个框打分，该分数用于选取与 GroundTruth 最为契合的 bbox（之前使用 IOU 最大的bbox），被舍弃掉的 bbox 将只会参与置信度损失的计算。
分类预测：Yolo-v2 对于分类使用的是softmax，得到一个20维的向量；Yolo-v3 改变这一做法，它使用多个逻辑分类器，每一个分类器用来判断 bbox 是否属于一个类，然后用二元交叉熵计算损失。这样做的好处是，可以应对 Open Images Dataset 这样的一个物体同时属于多个类的情况。
多尺度预测：Yolo-v3 效仿 FPN 的多级特征金字塔，通过上采样和 concat 大尺度特征，可以生成除 13*13 以外的 26*26、52*52 特征图，特征图的每一个特征点拥有3个 anchor，每一个 anchor 拥有4个 offset 数据、1个置信度、80个类别信息。这些 anchor 同样通过 K-means 来获得，只是 k = 9 k=9k=9，然后均分给多尺度的每一层。文章给出 416*416 尺度下图像的 anchor 尺寸：

(10×13)、(16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116 × 90)、(156 × 198)、(373 × 326)

1
特征提取：Yolo-v2 中使用了一个“透层”将 26*26 的特征图连接到 13*13 的特征图上，这有点类似于ResNet的残差思想；Yolo-v3 直接加入残差块，去掉池化的同时增加卷积的步长，保证输入图像经过5次下采样，由此诞生了Darknet-53。

在这里插入图片描述
2.3 Yolo v3的实现与效果
作为工程项目来说，Yolo-v3的检测效果应该是相当不错的，这里我们不去讨论mAP、COCO数据集上的表现等刷分用的参数，就仅仅看它在实际应用中的performance，速度、精度都很令人满意。重要的是，Yolo-v3开源代码的使用极其简单，即便是看源码、根据自己的需求修改源码都很方便（主要是代码写得很清晰）。参考Tensorflow版本的项目，得到下图结果。

javastart

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
目标检测之Yolov3与Anchor-Free

作为工程项目来说，Yolo-v3的检测效果应该是相当不错的，这里我们不去讨论mAP、COCO数据集上的表现等刷分用的参数，就仅仅看它在实际应用中的performance，速度、精度都很令人满意。重要的是，Yolo-v3开源代码的使用极其简单，即便是看源码、根据自己的需求修改源码都很方便（主要是代码写得很清晰）。参考Tensorflow版本的项目，得到下图结果。特征提取：Yolo-v2 中使用了一个“透层”将 26*26 的特征图连接到 13*13 的特征图上，这有点类似于ResNet的残差思想；
复制链接

扫一扫