YOLO v3
YOLO v3 是 YOLO 系列中的一种先进的实时目标检测网络,它在效率和速度方面相较于其前身有显著提升。此版本特别优化了网络结构,以改善小目标的检测能力,综合利用多尺度特征图信息以预测不同大小的物体。它采用了丰富的先验框设计,每个尺度提供三种不同规格,共计九种先验框。
特点
- 改进的网络结构: YOLO v3 对网络结构进行了优化,特别是为了提高对小型目标的检测性能。
- 细化的特征提取: 通过融合多个尺度的特征图来预测各种尺寸的物体,增强了模型的泛化能力。
- 丰富的先验框: 提供三种尺度,每种尺度包括三个规格的先验框,共九种,以适应不同大小物体的检测。
- 多标签预测: 利用 softmax 层的改进进行多标签任务的预测,采用 logistic 激活函数以预测每个类别的存在与否。
- 多尺度检测: 设计了三个不同的尺度,使网络能够捕捉到不同大小的物体。
核心网络架构
- 无池化和全连接层: 全部采用卷积层,以保持空间特征的丰富性。
- 下采样: 通过将 stride 设为 2 来实现,而不是采用传统的池化操作。
- 残差连接: 借鉴了 ResNet 的设计,通过堆叠更多的层来提升特征提取效率,并采用残差连接以避免训练过程中的梯度消失问题(残差网络结构见下图左一,单纯的VGG网络层数叠加并不能提升运行速度和准确性,见图右一、二:不采用残差网络的话,层数越多,训练和测试的误差越高)。
- 图像金字塔: 利用不同的特征图进行融合后预测,以实现对物体尺寸的敏感性。
先验框设计
YOLO3共有9中先验框,比YOLO2中的5种更多了:
特征图 | 13* 13 | 26* 26 | 52* 52 |
---|---|---|---|
感受野 | 大 | 中 | 小 |
先验框 | (116x90),(156x198),(373x326) | (30x61),(62x45),(59x119) | (10x13),(16x30),(33x23) |
先验框如下图所示: