VOLO系列

最新推荐文章于 2024-11-12 23:15:59 发布

曹星伟

最新推荐文章于 2024-11-12 23:15:59 发布

阅读量267

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/Cccccw0419/article/details/142825583

版权

YOLO-V1
- 核心思想：将检测问题转化为回归问题，通过一个 CNN 实现。输入图像被划分成 S×S 的网格，每个网格预测 B 个边界框以及对应的置信度和 C 个类别概率。
- 网络架构：基于 GoogLeNet，包含 20 层，最终输出为 7×7×30 的张量。
- 损失函数：包括位置误差、置信度误差和分类误差。
- 优点：快速、简单，可实时检测视频。
- 缺点：每个 Cell 只能预测一个类别，无法解决重叠问题；小物体检测效果一般，长宽比可选但单一。
YOLO-V2
- 改进措施
  - Batch Normalization：舍弃 Dropout，在卷积后全部加入 Batch Normalization，提升网络收敛速度和 mAP。
  - 更大的分辨率：训练时使用 448×448 的分辨率，并进行微调，提升 mAP。
  - 网络结构：采用 DarkNet，没有 FC 层，5 次降采样得到 13×13 的特征图，1×1 卷积节省参数。
  - 聚类提取先验框：通过 K-means 聚类提取先验框，更适合数据集。
  - Anchor Box：引入 anchor boxes，增加预测的 box 数量。
  - Directed Location Prediction：选择相对 grid cell 的偏移量，解决收敛问题。
  - Fine-Grained Features：融合之前的特征，解决小目标丢失问题。
  - Multi-Scale：在一定 iterations 之后改变输入图片大小，适应不同尺度的目标。
- 优点：更快、更强，mAP 和召回率都有所提升。