You Only Look Once: Unified, Real-Time Object Detection 论文解读

本文章用以JMU AIA(集美大学人工智能协会)于2024/01/27发布在课堂派上的期末考核(FINAL)。
论文来自于期末考核附件。
论文中提到的YOLO项目网站

一、

YOLO(You Only Look Once)不同于传统的目标检测方法,其将目标检测问题视为一个回归问题,直接从输入图像预测空间分离的边界框和相关的类别概率(class probabilities)。整个检测过程由一个单一的神经网络完成,同时预测多个边界框和这些框的类别概率,避免了由复杂管道(complex pipelines)带来的速度缓慢和难以优化的问题。

YOLO使用来自整个图像的特征来预测每个边界框,对整个图像和图像中的所有对象进行全图推理( reasons globally),获取了更为全面的信息,避免了使用滑窗法(sliding window)等方法只获取片面信息所导致的错误识别,在保证了极高的速度的同时保持较高的平均精度。但是它无法看到更大的被检测物体与背景之间的边界信息所以会从背景中检测出错误的物体,因此YOLO的背景检测误差不到Fast R-CNN的一半。

YOLO学习对象的泛化特征( generalizable representations)因此其在训练自然图像和艺术图像上的性能表现远远优越于DPM和R-CNN等方法。这使得其具有高度通用性,有强大的适应性支持其应用于新领域。

YOLO在精度上有缺陷,虽然其识别速度较快,但仍然难以精确定位一些物体,特别的,在定位小物体时更加令人失望。

二、

YOLO使用网格单元进行检测,其将输入图像划分为S×S个网格单元,每个单元负责预测一定数量的边界框及其置信度得分(confidence score),置信度分数反映了模型对框所包含对象的自信,以及模型认为框所预测的准确度。

confidence在论文中被定义为 C = Pr(Object) ∗ IOU truth pred
具体方法如下
It divides the image into an S × S grid and for each grid cell predicts B bounding boxes, 
confidence for those boxes, and C class probabilities. 
These predictions are encoded as an S × S × (B ∗ 5 + C) tensor

得分值就代表了该类别物体出现在框中的概率和边界框与物体的拟合程度。

模型在ImageNet 1000类竞争数据集( competition dataset)上预训练卷积层,预训练时使用了20个卷积层、一个平均池化层和一个全连接层。

为了提升检测性能,由于在现有模型中加入卷积层和全连接层,显著提高网络的性能表现的想法,模型被增加了四个带有随机初始化参数的卷积层以及两个全连接层。又将网络输入的图像分辨率提升四倍,以满足任务对图像的细致纹理信息的较高要求。

在网络的最后一层,输出包含了类别概率以及边界框的坐标信息。为了将边界框的尺寸与图像的尺寸相匹配,边界框的宽度和高度通过图像的宽度和高度进行了规范化处理,确保这些尺寸参数落在0到1的范围内。同时,边界框的x和y坐标是相对于预定网格的偏移量进行参数化的,这样它们的数值也限制在0到1之间。

最后一层采用了线性激活函数来保持输出的线性特性,而网络的其他层则使用了其他类型的激活函数来引入非线性,以增强模型的表达能力。激活函数

模型输出平方和误差来降低优化难度。但不能满足最大化平均精度的目标。为避免误差进行同等加权和分类误差不理想的情况导致的早起训练的分歧,研究人员引入λcoord和λnoobj两个参数进行加权。

又由于平方和误差在计算时会将大框和小框同等加权,但大框和小框所造成的误差大小不同,为部分解决这个问题,模型先计算边界框宽和高的平方根,而不是直接使用宽和高。

在YOLO中,每个网格单元会预测多个边界框。为了确保在训练过程中,每个对象仅由一个边界框负责检测,研究人员选择IOU最大的边界框作为负责检测该对象的边界框。这种策略意味着每个边界框预测变量都被分配了一个特定的检测任务,从而可以更精准地预测边界框的尺寸、纵横比和类别,使得模型的整体召回率(overall recall)得到了显著的提升。

研究人员在训练期间优化了以下损失函数(multi-part loss function)
multi-part loss function

避免过拟合(overfitting)的处理措施
To avoid overfitting we use dropout and extensive data augmentation.
 A dropout layer with rate = .5 after the first connected layer prevents co-adaptation between layers. 
 For data augmentation we introduce random scaling and translations of up to 20% of the original image size. 
 We also randomly adjust the exposure and saturation of the image by up to a factor of 1.5 in the HSV color space.
非极大值抑制(non-maximal suppression)的功能
网格设计在边界框预测中实现了空间多样性。
通常情况下,物体位于哪个网格单元是明确的,网络对于每个物体只预测一个边界框。
然而,一些大物体或者靠近多个单元格边界的物体可能会被多个单元格准确地定位。
非极大值抑制可以用来解决这些重复检测的问题。
虽然它对性能的影响不像RCNN或DPM那样关键,但非极大值抑制仍然可以提高2-3%的平均精度均值(mAP)。

YOLO的边界框的预测受到强烈的空间约束(strong spatial constraints):每个网格单元仅能预测有限数量的边界框,并且只能针对一个类别。这种设计虽然带来了效率上的提升,但同时也限制了模型对密集出现的小型物体(例如鸟群)的检测能力。由于模型是从数据中学习预测边界框,导致它难以处理新颖或不常见纵横比和形状的对象。此外,由于架构中包含多个下采样层,模型使用的特征相对粗糙,影响边框预测的准确性。

在训练过程中,损失函数对于大小不同的边界框误差的处理是一致的。这意味着在大边界框中的小误差可能被视为无关紧要,而在小边界框中的同等大小误差会对交并比(IOU)产生更大的负面影响。定位错误是模型误差的主要来源。

FAST YOLO是目前在PASCAL数据集上速度最快的目标检测算法,也是现存速度最快的目标检测模型。在mAP(平均精度均值)指标上达到了52.7%,这一成绩是之前实时检测精度的两倍多。而YOLO将mAP提升至63.4%,同时仍然维持了实时检测的性能。

YOLO算法在正确定位物体方面存在困难,其误差中由定位错误引起的比例超过了所有其他类型的误差之和。与之相比,Fast R-CNN在定位误差上要少得多,但它产生背景错误的数量要多得多。具体而言,有13.6%的顶尖检测结果为假阳性(false positive),即这些检测并未包含任何实际物体。Fast R-CNN将背景误判为物体检测的概率几乎是YOLO的三倍。

误差分析饼图如下图所示在这里插入图片描述

其应用在网络摄像头中识别毕加索艺术数据集的数据结果如下图。

毕加索和人-艺术数据集的概化结果。

三、论文动机

目标检测是计算机视觉中的一个核心问题。传统的检测方法通常分为特征提取和分类两个阶段,但这些方法在处理实时物体检测任务时速度较慢。因此,文章提出一种更快、更准确的物体检测方法,YOLO(You Only Look Once),其避免了由复杂管道(complex pipelines)带来的速度缓慢和难以优化的问题。

四、创新点与方法

YOLO(You Only Look Once)是一种高效的端到端物体检测算法,它能够在单次网络评估中同时预测边界框和类别概率。这种方法在速度和准确性方面都优于传统的基于分类器的方法(region proposal-based techniques)或滑窗法。

在YOLO算法中,输入图像被划分为S×S的网格,每个网格单元负责预测多个边界框及其置信度分数和类别概率,以实现对整个图像的全面覆盖。

为了防止过拟合,YOLO应用了dropout和数据增强策略。

为了提升检测结果的精度,YOLO采用了非极大值抑制(non-maximal suppression)技术。

在损失函数设计上,YOLO通过平方误差对定位误差和分类误差进行均衡优化。

此外,还开发了一个快速的YOLO版本,该版本通过减少网络层数和过滤器数量,构建了一个轻量级的检测模型,这有助于在保持准确性的同时提高检测速度。

在PASCALVOC数据集上进行微调训练。训练过程中使用动量优化和学习率衰减策略。

五、想法

1.YOLO是一种实时目标检测系统,但它的平均精度仍然低于最先进的检测系统。
Fast YOLO也牺牲了一些精度换取了速度,为什么实时性和准确性之间存在这种权衡,是否可以同时提高两方面的性能?

2.如果对YOLO进行微调以适应特定任务,例如行人检测或车辆检测,是否能够进一步提高其在这些任务上的性能

3.对于类别不平衡问题,可以在损失函数中增加类别权重或设计专门的类别平衡策略,以改善模型对少数类别的检测性能。

4.论文中提到yolo使用的图像分辨率较低,那么如果将YOLO扩展到更高分辨率图像的检测任务中,其性能是否会进一步提高,或者高分辨率图像上的小物体检测是否会成为新的问题?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值