目标检测详解：分类、回归与NMS在计算机视觉中的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_15821487/article/details/125219127

目标检测的定义

首先什么是分类，什么是回归？
分类和回归都是监督学习，对输入的数据进行预测。
分类的输出结果是离散的，是物体所属的类别，如猫、狗等。
回归的输出结果是连续的，是物体的值，在一段范围内即可。
知乎上有一个高赞回答[1]说：连续与离散是表象，本质区别在于输出的标签是否有距离度量。
分类任务没有距离度量，把1分类为2和把1分类为3没有区别。
回归任务有距离度量，可乐的真实价格是5元，预测为4元，误差为1元，预测为2元，误差为3元。
此外，分类的目的是寻找决策边界，得一个决策面，对数据集中数据进行分类。如判断图片中的动物是猫还是狗等。
回归的目的是找到最优拟合，得一个最优拟合线，这个线最好接近数据集中的各个点。如预测股票、预测房价等。

图像分类、目标检测、图像分割理解

图像分类(image classification)：输入图像往往仅包含一个物体，目的是判断每张图像是什么物体，是图像级别的任务，相对简单，发展也最快。
目标检测(object detection)：输入图像中往往有很多物体，目的是判断出物体出现的位置与类别，是计算机视觉中非常核心的一个任务。
图像分割(image segmentation)：输入与物体检测类似，但是要判断出每一个像素属于哪一个类别，属于像素级分类。图像分割与物体检测任务之间有很多联系，模型也可以相互借鉴。

bounding box的位置

通常有三种格式来表示bounding box的位置：
xyxy，即(x1, y1, x2, y2)，其中(x1, y1)是bounding box左上角的坐标，(x2,y2)是bounding box右下角的坐标；
xywh，即(x, y, w, h)，其中(x, y)是bounding box左上角的坐标，w是矩形框的宽度，h是矩形框的高度；
cxcywh，即(cx, cy, w, h)，其中(cx, cy)是bounding box中心点的坐标，w是矩形框的宽度，h是矩形框的高度。

在检测任务中，训练数据集的标签里会给出目标物体真实边界框所对应的(x1,y1,x2,y2)，这样的边界框也被称为真实框（ground truth box），我们训练出的模型会对目标物体可能出现的位置进行预测，由模型预测出的边界框则称为预测框（prediction box）。要完成一项检测任务，我们通常希望模型能够根据输入的图片，输出一些预测的边界框，以及边界框中所包含的物体的类别或者说属于某个类别的概率，例如这种格式: [L, P, x1, y1, x2, y2]，其中L是类别标签，P是物体属于该类别的概率。一张输入图片可能会产生多个预测框，我们就根据预测出的prediction box和ground truth box计算损失值来定义损失函数。