使用YOLO检测图像中的对象-CSDN博客

本文链接：https://blog.csdn.net/weixin_38739735/article/details/135053900

想象一下：你和你的自动驾驶车正在穿越拥挤的街道。你是否曾经想过这样的自动驾驶汽车是如何看待这个世界的？它实际上在不到1/10秒的时间内玩起了“我瞧瞧”的游戏。

自动驾驶汽车必须在瞬间内识别人、标志和车辆。这就是为什么在当今社会中，准确找到图像中的对象如此重要的原因。准确找到物体有助于这些汽车迅速做出决策，以确保我们所有人的安全。如果汽车错误地认为标志是行人，可能会发生糟糕的事情。

车车辆在图像中的检测

什么是目标检测？

这些自动驾驶汽车正在进行的正式名称是目标定位。目标检测旨在不仅对图像中的对象进行分类，还要找到该对象在图像中的位置。这对于各种不同的任务都非常重要，因为它使自动驾驶车辆能够在复杂的交通场景中安全导航。

目标检测有各种不同的应用。在医学成像中，目标检测对于诊断疾病至关重要，在农业技术中用于作物监测，在增强现实中用于无缝用户交互。准确的目标检测不仅有助于理解和解释视觉内容，而且还为做出明智决策奠定了基础。

在图像中检测对象

目标检测是如何工作的？

计算机中的目标检测由卷积神经网络提供支持。这些卷积神经网络能够从图像中提取特征，从而实现图像的分类。有许多不同类型的目标定位模型。一些目标定位模型包括YOLO、SSD和R-CNN。YOLO是最强大且最高效的模型。它是最常用的目标检测模型。

这些图像检测神经网络首先通过分类头预测图像中的内容。然后，在回归头中预测每个对象在图像中的位置。分类旨在对图像进行特定数量的类别分类，而回归旨在找到一个相关的数字，在图像检测的情况下是边界框的x和y坐标。

图像检测神经网络的架构

介绍YOLO

YOLO，即“You Only Look Once”，改变了目标检测领域的游戏规则，它非常快速和高效。

YOLOv5是如何工作的？

与旧方法进行多轮图像处理不同，它使用深度神经网络，特别是卷积神经网络（CNNs），来检测对象。但是，它以聪明的方式使用CNN。它将图像分成小节并预测事物的位置以及对其猜测的自信程度，所有这些都一次性完成。

它将图像分为SxS网格，每个单元格一个。如果对象的中心落在单元格下，该单元格负责该特定对象。对于每个单元格，它预测B个边界框。它还使用C类概率预测每个框的置信度。对于每个边界框，有5个预测：x、y、宽度、高度和置信度分数。最终的预测被编码为SxSx(Bx5+C)张量，即多维向量。当YOLO在Pascal VOC上进行评估时，这是一个用于目标检测的著名数据集，图像被分为一个7x7的网格，每个单元格有2个边界框的预测，以及20个总标签类。这导致了一个7x7x30的张量作为预测。

相较之前的方法Faster R-CNN，它依赖于一个更复杂的系统。它首先在图像中提出潜在区域，然后分析每个区域以单独检测对象。这种方法涉及多个步骤，使其相对于YOLOv5而言更慢。另一方面，YOLOv5跳过了区域建议步骤，直接预测边界框和对象概率。这个简化的过程显著加速了目标检测，同时保持了高准确性。

数据集

YOLOv5训练的数据集是COCO数据集。COCO数据集是640x640的图像，可用于图像检测、图像分割和图像字幕。总共有80个类别在COCO数据集中。由于COCO是一个非常庞大的数据集，因此它对于创建诸如YOLOv5之类的通用模型非常有用。