YOLO v1 → YOLO v2 → YOLO v3

最新推荐文章于 2022-09-26 15:40:01 发布

w2blue

最新推荐文章于 2022-09-26 15:40:01 发布

阅读量152

点赞数

分类专栏：图像处理文章标签：深度学习目标检测计算机视觉

本文链接：https://blog.csdn.net/w2blue/article/details/112564244

版权

图像处理专栏收录该内容

1 篇文章

订阅专栏

YOLOv2在YOLOv1基础上引入了anchorbox和k均值聚类，提高了目标检测准确性，并通过多尺度训练和BatchNorm加速收敛。YOLO9000采用联合训练分类和检测，能识别9000多种物品。YOLOv3则通过多尺度预测和改进的基础网络Darknet-53，提升了检测速度和小物体检测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLOv2借鉴SSD的思路对YOLOv1进行了一系列改进，更像是SSD的升级版

引入了anchor box的概念，有参考，学习到的目标框更加准确，且一个栅格可以识别多个物体。还对其进行了改进
- 对anchor box的选取采用k均值聚类，而非像Faster RCNN里人工选择
- 目标框定位方法的改进，对于定位坐标，Fasster RCNN 学习的是相对于anchor box的偏移参数，由于没有限制，中心点可以是图像的任意点，而YOLO v2学习的是相对于某个栅格的偏移参数，中心点的学习由一个sigmid函数限制在该栅格内，能更快收敛，稳定性更好。
细粒度特征(fine grain features)
- 简单添加一个 pass through layer，把浅层特征图连接到深层特征图
  - （类似resnet中的做法（resnet中应该是叠加，但是这里是通道串联），而SSD是直接将不同卷积层得到的特征图输出到末尾）
换为全卷积网络
- 可以适应不同尺寸的输入
多尺度训练(Multi-Scale Training)
- 训练时随机选择新的输入图像尺寸，使得网络可以适应多种不同尺度的输入
Batch Norm
- 可以使网络快速收敛，且有正则化效果，去掉了dropout

YOLO9000( YOLO9000: Better, Faster, Stronger)

YOLO9000是在YOLOv2的基础上得到的，相比于YOLO v2，YOLO9000 具有更强大（Stronger）的检测功能，可以检测出更多的类别

joint classification and detection(联合训练分类和检测)
- 采用这种联合训练，YOLO9000从COCO检测数据集中学习如何在图片中寻找物体，从ImageNet数据集中学习更广泛的物体分类。使该系统可以识别超过9000种物品
Dataset combination with WordTree
- 使用WordTree把多个数据集（coco和imagenet）整合在一起

YOLOv3

不仅速度快，而且准确率高，检测小物体的能力也得到了很大提升

多尺度预测（借鉴了FPN的思路）
- 通过加入不同卷积层的特征，进行多尺度检测，采用FPN的做法，不仅利用不同特征图分别检测，还将不同尺度的特征图进行融合再检测。
- 每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3中尺度.
- 尺度1: 在基础网络之后添加一些卷积层再输出box信息.
- 尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
- 尺度3: 与尺度2类似,使用了32x32大小的特征图.
更好的基础分类网络（类ResNet）和分类器
- 仿ResNet, 与ResNet-101或ResNet-152准确率接近,但速度更快，新网络结构Darknet-53（比以前的网络层数更深，YOLOv2为Darknet-19）