目标检测领域继续快速发展。不到两个月前,谷歌Brain团队发布了针对物体检测的EfficientDet,挑战了YOLOv3作为(接近)实时物体检测的首要模型的地位,并推动了物体检测的可能性。我们写了一系列的文章,比较YOLOv3和EfficientDet,在自定义的数据上训练YOLOv3,在自定义的数据上训练EfficientDet,我们发现了令人印象深刻的结果。
发布的YOLOv4显示,COCO的平均精度(AP)和每秒帧数(FPS)分别提高了10%和12%。在这篇文章中,我们将看到作者是如何通过深入研究YOLOv4中使用的数据增强技术的细节来实现这一突破的。
马赛克增强的发明人Glen Jocher发布了一个名为YOLOv5的新的YOLO训练框架。你可能还想看看我们关于YOLOv5 vs YOLOv4的文章,这篇文章将解释新的YOLOv5框架的一些优点。
YOLOv4的Freebies都有些什么?
YOLOv4的作者在他们题为 “bag of freebies” 的论文中包括了一系列的贡献。这是一系列可以在不增加推断时间延迟的情况下提高模型性能的步骤。由于它们不影响模型的推断时间,所以大多数都是对训练pipeline的数据管理和数据增强进行了改进。这些技术改进并增强了训练集,让模型可以看到原本看不到的场景。计算机视觉中的数据增强是充分利用数据集的关键,最新的研究继续验证这个假设。
计算机视觉中的数据增强
图像增强从现有的训练数据中创建新的训练样本。不可能真正为我们的模型在推理中要看到的每个真实场景捕捉一个图像。因此,调整现有的训练数据以适用于其他情况,可以使模型从更广泛的情况中学习。
YOLOv4的作者列举了一些最终让他们加入bag of freebies的技术