研究用于视障人士户外障碍物检测的 YOLO 模型
论文题目: Investigating YOLO Models Towards Outdoor Obstacle Detection For Visually Impaired People
研究用于视障人士户外障碍物检测的 YOLO 模型
摘要
利用基于深度学习的物体检测是帮助视障人士避开障碍物的有效方法。在本文中,实现了七种不同的 YOLO 物体检测模型,即 YOLO-NAS(小、中、大)、YOLOv8、YOLOv7、YOLOv6 和 YOLOv5,并通过精心调整的超参数进行了综合评估,以分析这些模型在包含道路和人行道上常见日常物体的图像上的表现。经过系统的调查,YOLOv8 被认为是最好的模型,它在著名的障碍物数据集(包括 VOC 数据集、COCO 数据集和 TT100K 数据集的图像以及研究人员在现场收集的图像)上的精确度达到了 80%,召回率为 68.2%。尽管 YOLO-NAS 是最新的模型,并在许多其他应用中表现出更好的性能,但在障碍物检测任务中,YOLO-NAS 仍未达到最佳状态。
关键词: 障碍物检测、YOLO、物体检测、边界框、视障人士
1 引言
视觉是人体最重要的感官之一。它帮助我们识别周围的环境,使我们能够进行日常工作。然而,随着视力的丧失,人们在生活中的基本技能,如识别障碍物、学习、阅读、上学和工作等方面的能力都会受到影响。据世界卫生组织(WHO)统计,全球至少有 22 亿人存在近视或远视障碍[1]。白内障、青光眼、屈光不正、老年性黄斑变性和糖尿病视网膜病变是导致失明和视力受损的主要原因[2]。视力损伤会给个人带来严重后果,包括劳动力参与率和生产率降低[3]、抑郁和焦虑率升高[4]以及遭受暴力和虐待(包括欺凌和性暴力)的比率升高[5]。经济也受到巨大影响,研究表明,中度至重度视力损伤每年造成的损失从洪都拉斯的 1 亿美元到美国的 165 亿美元不等[6]。
有效缓解和解决这一世界性问题的方法之一是利用深度学习方法,特别是通过使用卷积神经网络(CNN)来指导视障人士执行各种日常物体检测任务。由于卷积神经网络具有识别前方障碍物的算法能力,因此视障人士和盲人可以通过卷积神经网络获得帮助。物体检测算法能够告诉人们前方有哪些物体,从而避开它们[7]。有鉴于此,这项工作在一个流行的障碍物数据集上评估和分析了 YOLO 模型的性能,该数据集包含日常街道和人行道上的障碍物和物体。
使用的不同 YOLO 模型包括 YOLO v5、v6、v7、v8 和 NAS。NAS 指的是 “神经架构搜索”(Neural Architecture Search),即由神经网络自动寻找完成任务的最佳架构,而不是由人为来完成[8, 9]。作者对模型进行了全面的测试和调整。
作者的工作旨在具体研究这些不同版本的 YOLO 模型在障碍物检测任务中的性能差异,以及最新架构搜索算法(YOLO-NAS)与早期版本的比较。由于 YOLO 众所周知的快速计算特性,特别选择 YOLO 进行系统的实证研究。
本文接下来的内容安排如下:第 2 节讨论该领域的相关工作;第 3 节讨论问题的提出过程;第 4 节介绍进行分析所使用的方法;第 5 节和第 6 节介绍结果和讨论总结得出的结论。
2 相关工作
2.1 障碍物检测的相关工作
在建立模型以帮助盲人或视障人士方面,已经进行了大量的研究;然而,在系统分析不同物体检测模型的性能方面,却没有做很多工作。这些性能分析非常重要,因为它们提出了有效建立真实世界模型以帮助盲人和视障人士的最佳模式。在[10]中,作者提出了一种基于深度学习的视障人士辅助应用模型,特别是安装在智能手机上的带有 Darknet-53 基础网络的 YOLOv3。该模型使用 Pascal VOC2007 和 Pascal VOC2012 数据集进行训练,在障碍物检测方面实现了高速度和高精度。该应用利用 eSpeak 合成器生成音频输出,使视障人士能够与周围环境进行有效互动。实验结果证明了所提模型在实时障碍物检测和分类方面的有效性,为视障者的日常生活提供了安全性和舒适性。未来的工作包括研究视障人士与障碍物之间的距离,并整合其他理论来改进整体应用。
文献[9]的作者主要关注神经架构搜索(NAS)技术的使用。他们提出了一种利用深度学习和 NAS 技术的视障人士智能导航辅助系统。该系统中使用的深度学习模型通过精心设计的架构取得了巨大成功。该论文还提出了一种快速 NAS 方法,以寻找一种高效的物体检测框架。NAS 基于量身定制的强化学习技术。提出的 NAS 用于探索无锚物体检测模型的特征金字塔网络和预测阶段。搜索到的模型在 Coco 数据集和室内物体检测与识别(IODR)数据集的组合上进行了评估。结果模型的平均精度(AP)比原始模型高出 2.6%,计算复杂度在可接受范围内。所取得的结果证明了所提出的 NAS 在自定义对象检测方面的效率。这促使作者将 YOLO-NAS 模型用于物体检测任务。
在文献[7]中,研究人员介绍了一种新颖的静态/移动障碍物检测框架,以帮助视障/盲人安全导航,该算法可在智能手机上实时运行,独立提供障碍物检测和分类。该算法可在智能手机上实时运行,独立进行障碍物检测和分类。根据障碍物与目标物的距离和运动矢量方向,将障碍物分为紧急/正常障碍物。在英特尔至强计算机上,障碍物检测的平均处理时间为 18 毫秒/帧,而在三星 Galaxy S4 智能手机上则为 130 毫秒/帧。论文还建议使用物体分类算法扩展该方法,并将突出显示的障碍物转换为语音信息。
文献[11]的作者提出了一种针对视障人士的辅助设备,该设备可提供自动导航和引导、检测障碍物并进行实时图像处理。该设备由一组异构的传感器和计算组件组成,包括超声波传感器、摄像头、单板 DSP 处理器、湿地板传感器和电池,并使用机器学习模型进行物体识别,使用户熟悉周围环境。该设备可以检测各种障碍物,如上楼、下楼、边缘、坑洼、减速带、狭窄通道和潮湿地板。输出以音频提示的形式提供,以确保用户的舒适性和友好性,训练对象的平均精确度(mAP)为 81.11。
2.2 物体检测和其他基于CNN的模型
卷积神经网络(又称 CNN)是一种机器学习算法,广泛应用于处理图像的不同机器学习任务中。其中一项任务是使用边界框检测图像中的物体。通过学习图像数据,计算机能够分析图像,识别图像中的物体并将其分为不同的组。这就是所谓的物体检测。物体检测算法也有多种,例如 R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、SSD、YOLO 等。
R-CNN,即基于区域的卷积神经网络(Region-based Convolutional Neural Network),是一种计算机视觉算法,通过结合深度学习和区域建议的力量,彻底改变了物体检测。它包括从图像中提取潜在的感兴趣区域,然后使用卷积神经网络对这些区域内的物体进行分类和定位。[15] Fast R-CNN 建立在原始 R-CNN 方法的基础上。它通过在所有提出的区域共享卷积特征,引入了一种更高效的架构,从而消除了冗余计算的需要。[16]Faster R-CNN 通过将区域建议网络(RPN)与Fast R-CNN 相结合来实现高精度的实时物体检测。[17] 另一种模型是Mask R-CNN。Mask R-CNN 的主要思想是利用区域建议网络(RPN)生成高质量的物体建议,然后通过预测物体类别、边界框坐标和像素级掩码来完善这些建议。
[18] 另一种主要算法是 SSD。SSD 背后的主要理念是在神经网络的单次传递中执行物体检测,省去了多个阶段。它通过在不同尺度的多个特征图上利用一组预定义的不同大小和长宽比的锚框来实现这一目标。
[14] CNN 通常由卷积层、池化层和全连接层组成。前两层(卷积层和池化层)执行图像特征提取,第三层(全连接层)将提取的特征映射到最终输出,即不同的类别[19, 20]。CNN 架构有多种类型,包括 AlexNet、VGGNet、GoogLeNet、ResNet 等[20, 21]。它在物体检测方面有多种重要应用,如自动驾驶汽车、人脸识别和医疗保健中的医疗检测等[22-24]。
3 问题的提出
在本节中,作者将从数学角度提出障碍物检测问题。假设:
X X X : 输入的室外障碍物图像, Y Y Y : 物体的真实值的标注集合, y i c l a s s y_i^{class} yiclass :物体 i 的类别标签, y i b o x y_i^{box} yibox:物体 i 的边框坐标, f f f:障碍物检测模型,即 YOLO。
目标是通过最小化损失函数来优化模型 f f f:
L ( f ( X ) , Y ) = λ c l a s s ⋅ L c l a s s ( f c l a s s ( X ) , Y ) + λ b o x ⋅ L b o x ( f b o x ( X ) , Y ) \mathcal{L}(f(X),Y)=\lambda_{\mathrm{class}}\cdot\mathcal{L}_{\mathrm{class}}(f_{\mathrm{class}}(X),Y)+\lambda_{\mathrm{box}}\cdot\mathcal{L}_{\mathrm{box}}(f_{\mathrm{box}}(X),Y) L(f(X),Y)=λ