标题# 目标检测项目总结
一、目标检测简介
目标检测的核心任务是识别图片中的物体并确定其位置,这是一个涉及位置和类别判定的多任务难题。在实际场景中,会面临诸多挑战,比如目标种类和数量繁杂、尺度不均以及受到遮挡和噪声等外部环境干扰。
二、目标检测的数据集
VOC数据集
- 来自PASCAL VOC挑战赛,涵盖4大类共20小类。其中VOC 2007包含9963张图片与24640个目标,VOC 2012则有23080张图片和54900个目标。
COCO数据集
- 起源于微软2014年标注的MS COCO数据库。该数据集拥有20万个图像,80个类别,超过50万个目标标注,平均每张图像有7.2个目标。
三、目标检测的Ground Truth
坐标格式
- YOLO(TXT)格式:以(x,y,w,h)表示,其中x、y为中心点坐标,w、h为宽和高,且均为归一化数值。
- VOC(XML)格式:使用(Xmin,Ymin,Xmax,Ymax),分别对应左上角和右下角坐标。
- COCO(JSON)格式:(Xmin, Ymin, W, H),这里的x、y、w、h非归一化,分别代表左上角坐标及宽和高。
类别与坐标信息
包含物体类别以及相应的真实边界框坐标。
四、目标检测的评估指标
IoU(Intersection over Union)
- 作为衡量边界框准确性的关键指标。首先过滤掉低类别置信度的检测结果,再依据IoU进行评估。
检测结果分类
- 分为TP(真阳性,IoU>阈值)、FP(假阳性,IoU<阈值)、TN(真阴性)、FN(假阴性,即漏检目标)。
其他指标
包括Precision(准确率)、Recall(召回率)以及P - R曲线、mean AP(各分类平均精度均值)、Average Precision(采用11点法或近似面积法计算)等。
五、目标检测的方法
传统方法 - 滑动窗口法
- 需人工设定尺寸,存在大量冗余操作且定位精度欠佳。
深度学习方法
anchor box
- 通过ratio + scale描述,由feature map上的点确定位置,scale表示目标大小,aspect ratio表示目标形状。
anchor - base和anchor - free
- anchor - base:为自顶向下方式,类似滑动窗口法先穷举后筛选。
- anchor - free:是自底向上,自动生成无需预设anchor。
算法流程
- two stage算法流程:涵盖类别预测、ROI、输入CNN、fc、NMS、pooling、位置回归、proposal等环节,常见算法有R - CNN系列等。
- one stage算法流程:包括类别预测、输入CNN、NMS、位置回归等步骤,常见算法有YOLO系列、SSD系列等。
非极大值抑制(NMS)
- 设定置信度阈值(通常约为0.5),按置信度降序排列候选框列表,选取最高置信度框加入输出列表并从原列表删除,计算其余框与该框的IoU并删除大于阈值的框,重复此过程直至列表为空。
通过对目标检测项目的数据集、Ground Truth、评估指标和检测方法等方面的详细介绍,我们能够更深入地理解目标检测技术,这对其进一步的研究和应用具有重要的指导意义。