yolov3

最新推荐文章于 2024-04-27 11:00:00 发布

CV/NLP大虾

最新推荐文章于 2024-04-27 11:00:00 发布

阅读量329

点赞数

原文链接：https://blog.csdn.net/liuwuw/article/details/103630996

版权

一.前言

近期，在研究人工智能机器视觉领域，拜读了深度学习相关资料，在练手期间比较了各前沿的网络架构，个人认为基于darknet53网络结构的yolov3以及retinanet的faster rcnn最合适深度学习工程落地的技术选型。以下是整理的对yolov3的认知解析，同时有个基于人员吸烟检测识别的小工程练手，以望沟通学习交流。后期会继续更新对faster rcnn的认知解析。

二.yolov3理解

you only look once.采用的是多尺度预测，类似FPN；更好的基础分类网络（类ResNet）和分类器。yolov3使用逻辑回归预测每个边界框（bounding box）的对象分数。如果先前的边界框比之前的任何其他边界框重叠ground truth对象，则该值应该为1。如果以前的边界框不是最好的，但是确实将ground truth对象重叠了一定的阈值以上，我们会忽略这个预测。yolov3只为给每个groun truth对象分配一个边界框，如果之前的边界框未分配给grounding box对象，则不会对坐标或类别预测造成损失。yolo3在训练过程中，使用二元交叉熵损失来进行类别预测。yolo3创新地使用了金字塔网络，是端到端，输入图像，一次性输出每个栅格预测的一种或多种物体。每个格子可以预测B个bounding box，但是最终只选择IOU最高的bounding box作为物体检测输出，即每个格子最多只预测出一个问题。当物体占画面比例较小，如图像中包含牲畜或鸟群时，每个格子包含多个物体，但只能检测出其中一个。

分类器：
YOLOv3不使用Softmax对每一个框进行分类，而使用多个logistic分类器，因为Softmax不适用于多标签分类，用独立的多个logistic分类器准确率也不会下降。分类损失采用binary cross-entropy loss.
多尺度预测
每种尺度预测3个box，anchor的设计方式仍然适用聚类，得到9个聚类中心，将其按照大小均分给3种尺度。尺度1：在基础网络之后添加一些卷积层再输出box信息；尺度2：在尺度1中的倒数第二层卷积层上采样（×2）再与最后一个16×16大小的特征图相加，再次通过多个卷积后输出box信息。相比尺度1变大两倍；尺度3：与尺度2类似，使用了32×32大小的特征图。
3.基础网络
基础网络采用Darknet-53（53个卷积层），仿RestNet，与ResNet-10或ResNet-152正确率接近，采用2562563作为输入。基础网络如下：

在这里插入图片描述

4.YOLO3算法的基本思想

首先通过特征提取网络对输入图像提取特征，得到一定大小的特征图，比如13×13（相当于416416图片大小），然后将输入图像分成13 ×13个grid cells，接着如果GT中某个目标的中心坐标落在哪个grid cell中，那么就由该grid cell来预测该目标。每个grid cell都会预测3固定数量的边界框(YOLO v1中是2个，YOLO v2中是5个，YOLO v3中是3个，这几个边界框的初始大小是不同的）
预测得到的输出特征图有两个维度是提取到的特征的维度，比如13 × 13，还有一个维度（深度）是 B ×（5+C），注：YOLO v1中是（B×5+C），其中B表示每个grid cell预测的边界框的数量（比如YOLO v1中是2个，YOLO v2中是5个，YOLO v3中是3个）； C表示边界框的类别数（没有背景类，所以对于VOC数据集是20），5表示4个坐标信息和一个目标性得分（objectness score）

5.类别预测

大多数分类器假设输出标签是互斥的。如果输出是互斥的目标类别，则确实如此。因此，YOLO应用softmax函数将得分转换为总和为1的概率。而YOLOv3使用多标签分类。例如，输出标签可以是“行人”和“儿童”，它们不是非排他性的。（现在输出的总和可以大于1）
YOLOv3用多个独立的逻辑（logistic）分类器替换softmax函数，以计算输入属于特定标签的可能性。在计算分类损失时，YOLOv3对每个标签使用二元交叉熵损失。这也避免使用softmax函数而降低了计算复杂度。

三.yolov3对比情况

算法很快，因为我们把目标检测问题看做一个回归问题，在测试时，我们在整个图片上运行我们的神经网络来进行目标检测
在检测过程中，因为是在整个图片上运行网络，和滑动窗口方法和区域提议方法不同，这些方法都是以图片的局部作为输入，即已经划分好的可能存在目标的区域；而yolo则是近以整张图片作为输入，此yolo在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。
yolo可以学到物体的泛化特征，当yolo在自然图像上做训练，在艺术品上做测试时，YOLO表现的性能比DPM、R-CNN等物体检测系统要好，因为yolo可以学习到高度泛化的特征，从而迁移到其他领域。
在输入 320 × 320 的图片后，YOLOv3 能在 22 毫秒内完成处理，并取得 28.2 mAP 的检测精准度，它的精准度和 SSD 相当，但是速度要快 3 倍。当我们用老的 .5 IOU mAP 检测指标时，YOLOv3 的精准度也是相当好的。在 Titan X 环境下，YOLOv3 在 51 毫秒内实现了 57.9 AP50 的精准度，和 RetinaNet 在 198 毫秒内的 57.5 AP50 相当，但是 YOLOv3 速度要快 3.8 倍。
区域建议方法将分类器限制在特定区域。YOLO在预测边界框时访问整个图像，YOLO在背景区域显示的假阳性更少。
YOLO每个网格单元检测一个对象。它加强了预测的空间多样性。

在这里插入图片描述

参考文章：

https://blog.csdn.net/liuwuw/article/details/103630996

CV/NLP大虾

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
yolov3

一.前言近期，在研究人工智能机器视觉领域，拜读了深度学习相关资料，在练手期间比较了各前沿的网络架构，个人认为基于darknet53网络结构的yolov3以及retinanet的faster rcnn最合适深度学习工程落地的技术选型。以下是整理的对yolov3的认知解析，同时有个基于人员吸烟检测识别的小工程练手，以望沟通学习交流。后期会继续更新对faster rcnn的认知解析。二.yolov3理解you only look once.采用的是多尺度预测，类似FPN；更好的基础分类网络（类ResNet）
复制链接

扫一扫