目标检测相关概念的理解

423 篇文章 6 订阅
202 篇文章 13 订阅

目标检测的定义

首先什么是分类,什么是回归?
分类和回归都是监督学习,对输入的数据进行预测。
分类的输出结果是离散的,是物体所属的类别,如猫、狗等。
回归的输出结果是连续的,是物体的值,在一段范围内即可。
知乎上有一个高赞回答[1]说:连续与离散是表象,本质区别在于输出的标签是否有距离度量。
分类任务没有距离度量,把1分类为2和把1分类为3没有区别。
回归任务有距离度量,可乐的真实价格是5元,预测为4元,误差为1元,预测为2元,误差为3元。
此外,分类的目的是寻找决策边界,得一个决策面,对数据集中数据进行分类。如判断图片中的动物是猫还是狗等。
回归的目的是找到最优拟合,得一个最优拟合线,这个线最好接近数据集中的各个点。如预测股票、预测房价等。

图像分类、目标检测、图像分割理解

图像分类(image classification):输入图像往往仅包含一个物体,目的是判断每张图像是什么物体,是图像级别的任务,相对简单,发展也最快。
目标检测(object detection):输入图像中往往有很多物体,目的是判断出物体出现的位置与类别,是计算机视觉中非常核心的一个任务。
图像分割(image segmentation):输入与物体检测类似,但是要判断出每一个像素属于哪一个类别,属于像素级分类。图像分割与物体检测任务之间有很多联系,模型也可以相互借鉴。

bounding box的位置

通常有三种格式来表示bounding box的位置:
xyxy,即(x1, y1, x2, y2),其中(x1, y1)是bounding box左上角的坐标,(x2,y2)是bounding box右下角的坐标;
xywh,即(x, y, w, h),其中(x, y)是bounding box左上角的坐标,w是矩形框的宽度,h是矩形框的高度;
cxcywh,即(cx, cy, w, h),其中(cx, cy)是bounding box中心点的坐标,w是矩形框的宽度,h是矩形框的高度。

在检测任务中,训练数据集的标签里会给出目标物体真实边界框所对应的(x1,y1,x2,y2),这样的边界框也被称为真实框(ground truth box),我们训练出的模型会对目标物体可能出现的位置进行预测,由模型预测出的边界框则称为预测框(prediction box)。要完成一项检测任务,我们通常希望模型能够根据输入的图片,输出一些预测的边界框,以及边界框中所包含的物体的类别或者说属于某个类别的概率,例如这种格式: [L, P, x1, y1, x2, y2],其中L是类别标签,P是物体属于该类别的概率。一张输入图片可能会产生多个预测框,我们就根据预测出的prediction box和ground truth box计算损失值来定义损失函数。

NMS的理解

参考:https://zhuanlan.zhihu.com/p/80318430

1,首先从第一类dog开始,将所有dog score <thresh1(0.3)的bb的score值设置为0

在这里插入图片描述

2,然后按照当前的dog score值给所有bb排序:

在这里插入图片描述

3,排好序之后我们找到当前最高分0.7和其对应的bb98(红色箭头),为了更清楚的描述整个过程,我们单独把dog score这一行拿出来,然后我们算其余的bb和bb98的IOU:

在这里插入图片描述
其实,我们不仅仅设置了score阈值,还会设置IOU阈值,高于IOU阈值的,将其删掉。

4,当计算完bb98和其余的bb的IOU值之后,我们便可以删掉一部分bb(设为零),之后我们从未删除的bb中在选取当前的最大值,即0.4,对应的是bb1,然后在计算bb1和其余bb的IOU值:

在这里插入图片描述

处理完之后,会得到一个score列表,取最大值所对应的框即可。

5,当处理完dog这一类之后,我们再处理下一类,例如bike,和上述过程相同,然后对于每一类都进行同样的操作之后,我们便删掉了大多数的bb,而对于留下的bb,画出所对应的框即可。

注意,NMS算法通常用于测试阶段

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
voc 2017 目标检测数据集可以从官方网站获取。首先,我们可以通过搜索"voc 2017 目标检测数据集下载"来找到相关的网页。在网页上,我们可以找到下载链接,点击链接后,会弹出下载选项。我们可以选择保存文件,并选择一个合适的存储位置。然后,等待数据集的下载完成。 voc 2017 目标检测数据集是用于计算机视觉领域的一个重要数据集,主要用于目标检测算法的评估与研究。数据集中包含了大量真实世界的图像和对应的标记框。这些标记框用于标识图像中的不同目标物体的位置和类别信息。 下载并使用这个数据集可以帮助研究人员和开发者评估他们的目标检测算法在真实数据上的性能表现,并进行进一步的改进和优化。同时,这个数据集也可以作为教育和学习的资源,帮助初学者理解和熟悉目标检测的基本概念和方法。 下载数据集后,我们可以使用相应的工具和库来加载和处理数据集。例如,使用Python的一个开源库如OpenCV或PIL来读取图像,并根据标记框的信息来提取目标物体的特征。然后,我们可以使用机器学习或深度学习的算法来训练模型,并在数据集上进行目标检测的实验和测试。 总之,voc 2017 目标检测数据集的下载和使用是进行目标检测算法研究和实践的重要一步。它提供了丰富的真实图像和标记框,为开发者和研究人员提供了机会来探索和改进目标检测算法的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值