Datawhale AI 夏令营 CV方向 Task 2-CSDN博客

本文链接：https://blog.csdn.net/2301_81185698/article/details/141653534

一、YOLO模型简介

YOLO模型是在图像和视频中识别感兴趣物体对象，通常通过边界框形式来识别物体。以下是物体检测的一些关键概念和步骤：

输入：物体检测算法的输入通常是一张图像或视频帧。
特征提取：算法使用深度学习模型（如卷积神经网络CNN）来提取图像的特征。这些特征捕捉了图像中的视觉信息，为后续的物体识别和定位提供基础。
候选区域生成：在某些检测算法中，如基于区域的卷积神经网络（R-CNN）及其变体，首先需要生成图像中的候选区域，这些区域可能包含感兴趣的物体。
区域分类和边界框回归：对于每个候选区域，算法需要判断它是否包含特定类别的物体，并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。
非极大值抑制（NMS）：在检测过程中，可能会产生多个重叠的边界框，用于表示同一物体。NMS是一种常用的技术，用于选择最佳的边界框并去除多余的框。

依据图像判别方式，图像识别可分为One stage 和Two stage两类模型。简单来说，One stage模型是直接依据单次网络识别图中所需对象。Two stage 使用区域提议网络（Region Proposal Network, RPN）生成候选区域，然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高，但速度相对较慢。

二、YOLO的数据集格式

YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件，文件中的每行表示一个物体的标注，包括物体的类别索引和边界框（bounding box）的坐标。以下是YOLO标注格式的详细介绍：

类别索引：用一个整数索引进行分类。
边界框坐标：边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值，范围在0到1之间。
坐标格式：边界框坐标通常按照[class_index x_center y_center width height]的格式记录，其中class_index是类别索引，x_center和y_center是边界框中心点的x和y坐标，width和height是边界框的宽度和高度。