目标检测(三):YOLO及YOLT
本篇博客主要介绍YOLO系列以及其一个变体YOLT。
1 目标检测框架YOLO
关于YOLO的介绍有很多,这里只是简单对其进行了了解。YOLO的优势是检测速度很快,且能够保证相对较高的检测精度;同时对于背景的误检率低;其泛化能力强,可以推广于不同的应用场景。到目前为止,YOLO系列已经发展出YOLOv1、YOLOv2、YOLOv3三个版本,检测速度和精度均得到很大提升。
1.1 YOLOv1
YOLOv1是一个可以一次性预测多个物体边界框位置和类别的卷积神经网络,能够实现端到端的目标检测和识别。此方法将目标检测问题转化成一个回归问题,给定输入图像,直接通过整张图片的所有像素得到物体的边界框坐标、分类类别和置信度信息。如下图所示,使用YOLO来进行目标检测的流程是非常简单明了的,图片来自YOLO论文:
- 将图像resize到448 * 448作为神经网络的输入。
- 运行神经网络,得到一些物体的边界框坐标、分类类别和置信度。具体步骤为:将图像划分成7 * 7的网格,每个网格预测出2个边界框,总共得到98个预测边界框以及它们的置信度;同时每个网格预测出对应所有物体的分类概率。
- 对得到的边界框进行非极大值抑制(NMS&