YOLO

一、背景介绍

YOLO(You Only Look Once: Unified, Real-Time Object Detection),是Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测系统。在2017年CVPR上,Joseph Redmon和Ali Farhadi又发表的YOLO 2,进一步提高了检测的精度和速度。本博仅学习YOLO!

// 论文下载地址
https://pjreddie.com/media/files/papers/yolo.pdf

下边简单说一下目标检测( Object detection)发展:

早期的目标检测方法通常是通过提取图像的一些 robust 的特征(如 Haar、SIFT、HOG 等),使用 DPM (Deformable Parts Model)模型,用滑动窗口(silding window)的方式来预测具有较高 score 的 bounding box。这种方式非常耗时,而且精度又不怎么高。

后来出现了object proposal方法(其中selective search为这类方法的典型代表),相比于sliding window这中穷举的方式,减少了大量的计算,同时在性能上也有很大的提高。利用 selective search的结果,结合卷积神经网络的R-CNN出现后,Object detection 的性能有了一个质的飞越。基于 R-CNN 发展出来的 SPPnet、Fast R-CNN、Faster R-CNN 等方法,证明了 “Proposal + Classification” 的方法在 Objection Detection 上的有效性。

相比于 R-CNN 系列的方法,本论文提供了另外一种思路,将 Object Detection 的问题转化成一个 Regression 问题。给定输入图像,直接在图像的多个位置上回归出目标的bounding box以及其分类类别。

YOLO是一个可以一次性预测多个Box位置和类别的卷积神经网络,能够实现端到端的目标检测和识别,其最大的优势就是速度快。事实上,目标检测的本质就是回归,因此一个实现回归功能的CNN并不需要复杂的设计过程。YOLO没有选择滑动窗口(silding window)或提取proposal的方式训练网络,而是直接选用整图训练模型。这样做的好处在于可以更好的区分目标和背景区域,相比之下,采用proposal训练方式的Fast-R-CNN常常把背景区域误检为特定目标。


二、论文摘要

下图所示是YOLO检测系统流程:

  1. 将图像Resize到448*448;
  2. 运行CNN;
  3. 非极大抑制优化检测结果。



YOLO是基于Pascal VOC2012数据集的目标检测系统。它能够检测到20种Pascal的目标类别,包括:

  • 鸟,猫,牛,狗,马,羊
  • 飞机,自行车,船,汽车,摩托车,火车
  • 瓶子,椅子,桌子,盆栽植物,沙发,电视或者显示器

YOLO的总体框架示意图如下:


一体化的设计方案:

YOLO的设计理念遵循端到端训练和实时检测。YOLO将输入图像划分为S*S个网格,如果一个物体的中心落在某网格(cell)内,则相应网格负责检测该物体。

在训练和测试时,每个网络预测B个bounding boxes,每个bounding box对应5个预测参数:

  1. bounding box的中心点坐标(x,y),宽高(w,h)
  2. 和置信度评分(confidence)

这个置信度评分:


综合反映了:

  1. 当前bounding box中含有object的置信度Pr(Object)
  2. 当前bounding box预测目标位置的准确性IOU(pred|truth)

如果bouding box内不存在物体,则Pr(Object)=0。如果存在物体,则根据预测的bounding box和真实的bounding box计算IOU,同时会预测存在物体的情况下该物体属于某一类的后验概率Pr(Class_i|Object)。

假定一共有C类物体,那么每一个网格只预测一次C类物体的条件类概率Pr(Class_i|Object), i=1,2,...,C;每一个网格预测B个bounding box的位置。即这B个bounding box共享一套条件类概率Pr(Class_i|Object), i=1,2,...,C。基于计算得到的Pr(Class_i|Object),在测试时可以计算某个bounding box类相关置信度:Pr(Class_i|Object)*Pr(Object)*IOU(pred|truth)=Pr(Class_i)*IOU(pred|truth)。如果将输入图像划分为7*7网格(S=7),每个网格预测2个bounding box (B=2),有20类待检测的目标(C=20),则相当于最终预测一个长度为S*S*(B*5+C)=7*7*30的向量,从而完成检测+识别任务,整个流程可以通过下图理解。


### 将YOLO模型转换为其他版本或格式 #### YOLO不同版本之间的转换 YOLO的不同版本(如YOLOv3、YOLOv4、YOLOv5等)主要区别在于网络架构和配置文件。为了将一个版本的YOLO模型迁移到另一个版本,通常需要调整以下几个方面: - **权重文件**:YOLO各版本之间可能有不同的层结构和参数数量,因此直接迁移权重通常是不可行的。可以考虑重新训练新版本的模型,使用旧版模型作为预训练模型来初始化权重[^1]。 - **配置文件**:每个YOLO版本都有特定的`.cfg`配置文件定义了网络架构和其他超参数设置。当从一个版本切换到另一个版本时,需修改这些配置文件以适应新版的要求。 #### YOLO与其他框架/工具链的互操作性 对于希望利用YOLO之外的其他深度学习平台或工具的情况,可以通过以下几种方式实现YOLO模型向其他格式的转换: - **ONNX (Open Neural Network Exchange)**:这是一种开放的标准交换格式,支持多种机器学习库间的模型共享。通过PyTorch或TensorFlow导出YOLO模型至ONNX格式后,可以在多个平台上部署该模型[^2]。 ```python import torch.onnx as onnx from models import * # 假设这是加载YOLO模型的地方 model = Darknet('yolov3.cfg', img_size=(416, 416)).cuda() dummy_input = torch.randn(1, 3, 416, 416).cuda() onnx.export(model, dummy_input, 'yolov3.onnx', verbose=True, opset_version=11) ``` - **Core ML / TensorFlow Lite**:如果目标是在移动设备上运行YOLO,则可将其转化为适用于iOS(Core ML) 或 Android(TensorFlow Lite) 的轻量化模型形式。这同样涉及到先将原始YOLO模型保存成中间表示(比如ONNX),再进一步编译为目标平台所需的二进制格式。 #### 数据标注格式转换 除了模型本身的转换外,在某些情况下还需要处理数据集标签格式的变化。例如,要将在YOLO格式中标记的对象位置信息应用于Pascal VOC标准下的项目中,就需要编写专门的脚本来完成这种转变。此过程涉及解析源格式并按照目的格式重组相关信息。 ```bash # 使用命令行调用Python脚本进行批量转换 $ python yolo_to_voc.py --input_dir ./annotations_yolo \ --output_dir ./annotations_voc \ --images_dir ./images ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值