初步了解目标检测

最新推荐文章于 2024-04-24 23:46:24 发布

Kolo_Tong

最新推荐文章于 2024-04-24 23:46:24 发布

阅读量323

点赞数

文章标签：计算机视觉 python 人工智能

本文链接：https://blog.csdn.net/qq_32531505/article/details/111300141

版权

目标检测是计算机视觉中的关键技术，它不仅识别图像中的物体，还确定其精确位置。通过分块和滑窗技术，网络对图像的每个部分进行分类并记录物体坐标。目标框通常以类别和四个坐标值表示，用于标记物体。目标框的作用在于指导网络优化，通过计算与目标框的交并比（IOU）来评估预测精度。在训练过程中，高IOU表明预测更准确。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.目标检测

目标检测，这就好比我们的行李箱过安检，安全员通过扫描的图片对行李箱内的物品进行检查，什么东西可以通过，什么又不能通过，而这一前提是安全员知道什么行李里面哪里有什么物品，它们又是否是安全和非安全物品，并在检查中识别出来。
目标检测是物品分类识别的进一步应用。物体分类的任务中，我们只需要对物品进行特征提取，然后预判出该无物品是什么类别的概率；目标检测在这个基础上必须知道该物体在图像中的位置并标记出来。

1.1怎么检测

这就用到了分而治之的思想，将一张图分解成很多张小的块并投入Net，对每一小的图像块进行分类识别，并记录物品的坐标。分解是通过滑窗技术来说实现的，而图像块的大小是一个超参数，需要人为设计。以下图做一个说明：
在这里插入图片描述
如果标识的框太小的话，如蓝色框，可能是能识别出车轮和上衣，框如果再加大一点，如绿色框，就能识别出骑自行车的人，但这时对于轮子的识别的准确性就会降低一些，因为框内的还包括其他的像素信息，这对轮子的识别有干扰。

2.目标框

目标框是对所要识别的物体进行的标记。标记的内容为类别，框的left top 和 ringt down 坐标值XY。

在这里插入图片描述

2.1目标框坐标的格式

格式1：类别，X左,Y左,X右,Y右
格式2：类别，X中心,Y中心,W框宽,H框高
一张图像的目标框数据一般会被写入一个 *.XML 的文件中
![在这里插入图片描述](https://img-blog.csdnimg.cn/202012162013523

在这里插入图片描述

2.2目标框的作用

目标框的作用便是在训练网络时使网络能够优化使之接近目标参数，因为网络自己生成的框与目标框有差距，对于这种差距的度量工具常用的是交并比——IOU
用下图来说明一下，绿色为目标框，浅蓝色为预测框，红色区域为两者的交集。交并比便是这两个框的交集占并集的比例，占比越高说明预测值越靠近目标值。
在这里插入图片描述
交并比怎么求？已知的前提是目标框的TOP坐标DOWN坐标和预测的TOP坐标DOWN坐标

交集的TOP坐标 = max(目标框的XTOP坐标,预测的XTOP坐标), max(目标框的YDOWN坐标,预测的YDOWN坐标)
交集的DOWN坐标 = min(目标框的XTOP坐标,预测的XTOP坐标), min(目标框的YDOWN坐标,预测的YDOWN坐标)

由此可知交集区域的面积。S(并集) = S(目标框)+S(预测框)-S(交集) ，交集为重叠区域
交并比 = S(交集) / S(并集)

资料：
1.Datawhale CV目标检测