- YOLO-V1
- 核心思想:将检测问题转化为回归问题,通过一个 CNN 实现。输入图像被划分成 S×S 的网格,每个网格预测 B 个边界框以及对应的置信度和 C 个类别概率。
- 网络架构:基于 GoogLeNet,包含 20 层,最终输出为 7×7×30 的张量。
- 损失函数:包括位置误差、置信度误差和分类误差。
- 优点:快速、简单,可实时检测视频。
- 缺点:每个 Cell 只能预测一个类别,无法解决重叠问题;小物体检测效果一般,长宽比可选但单一。
- YOLO-V2
- 改进措施
- Batch Normalization:舍弃 Dropout,在卷积后全部加入 Batch Normalization,提升网络收敛速度和 mAP。
- 更大的分辨率:训练时使用 448×448 的分辨率,并进行微调,提升 mAP。
- 网络结构:采用 DarkNet,没有 FC 层,5 次降采样得到 13×13 的特征图,1×1 卷积节省参数。
- 聚类提取先验框:通过 K-means 聚类提取先验框,更适合数据集。
- Anchor Box:引入 anchor boxes,增加预测的 box 数量。
- Directed Location Prediction:选择相对 grid cell 的偏移量,解决收敛问题。
- Fine-Grained Features:融合之前的特征,解决小目标丢失问题。
- Multi-Scale:在一定 iterations 之后改变输入图片大小,适应不同尺度的目标。
- 优点:更快、更强,mAP 和召回率都有所提升。
- 改进措施
VOLO系列
最新推荐文章于 2024-11-12 23:15:59 发布