基础知识：对象定位分类+对象检测算法组件+YOLO算法

KangKang——

已于 2024-07-15 15:59:37 修改

阅读量913

点赞数 12

分类专栏：吴恩达深度学习笔记文章标签： YOLO 目标检测

于 2024-07-14 17:39:42 首次发布

本文链接：https://blog.csdn.net/m0_51263060/article/details/140412227

版权

吴恩达深度学习笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、对象定位

1.定位分类问题

(1)对象定位方法

通过四个参数bx,by,bh,bw,给出图片对象的边框。即，神经网络可以通过输出图片上的特征点的(x,y)坐标，来实现对目标特征的识别。

(2)对象定位分类

不仅要判断图片中是否是要识别的对象，还要在图片中标记出它的位置。

类似图片分类模型，想识别3个分类，你可以把分类标签C从1到3进行标记，或者把它变为3维的向量（3个数字），在对应位置填写上0或1，即可实现分类功能，标签标记通常采用后者方法。之后再加上四个参数bx,by,bh,bw,给出图片对象的边框，添加Pc参数，表示当前图片是否有目标对象，若Pc=0，则其他参数无效。

在对象检测问题中，一张图片中也可以包含多种不同分类的对象。

因此，图片分类的思路可以帮助学习分类定位，而对象定位的思路又有助于学习对象检测。

2.特征点检测

神经网络可以通过最后一层输出图片上特征点的(x,y)坐标，来实现对目标特征的识别。

例如，想实现人脸识别，可以选定特征点个数，并生成包含这些特征点的标签训练集，然后利用神经网络输出脸部关键特征点的位置。具体做法，将人脸图片输入卷积网络，输出一个face值，face=1或0，1表示有人类，0表示没有人脸，再然后输出特征点的坐标（x1,y1)......（x64,y64）,即共有1+64*2=129个输出单元，由此实现图片对人脸检测和定位。

二、基于卷积网络实现滑动窗口的目标检测算法

1.滑动窗口的目标检测的原理

假设构建汽车检测算法，首先要构建带标签的训练集，为了获得更好的期望，可以适当剪切图片，使汽车居于中心位置并占据整张图片，有了标签训练集就可训练卷积神经网络了，输入适当剪切过的图片，卷积网络输出Y=0或1，0或1表示图中无汽车或有汽车。训练完卷积网络后，就可以用它来是实现滑动窗口目标检测。

（1）思路

以固定步幅滑动窗口，遍历图像的每个区域。通过选定特定大小的窗口，将其输入卷积网络。卷积网络开始进行预测，即判断窗口内有没有汽车，之后会将窗口滑动到下一个位置，再次判断窗口中有无汽车，以此类推，直至窗口滑过图像的每个角落。

（2）缺点

计算成本很大。若选用较大窗口，虽然会减少输入卷积网络的窗口个数，但是粗粒度可能影响性能。相反，如果用小步幅的窗口，则会增多输入卷积网络的窗口个数。

2.滑动窗口的目标检测算法在卷积层中的实现过程

（1）神经网络的全连接层转化为卷积层的方法

（2）滑动窗口在卷积层的实现过程

确定特定大小的窗口后，将整张图片输入给卷积神经网络，同时对所有窗口进行预测，最后可以直接根据卷积层的输出，判断出哪块区域有无需要识别的对象。

优点：利用卷积层，一次得到所有窗口范围内的预测值，使得滑动窗口的目标检测算法更加方便。

缺点：边界框的位置可能不够准确，可能不存在整个车都在窗口的边界框。

三、对象检测算法的组件

1.Bounding boxes（边界框）----每个格子只能检测一个对象

（1）如何编码bounding boxes边界框的位置(bx,by,bh,bw)

对于一个格子，规定最上角坐标为（0,0），右下角坐标为（1,1）。则下图边界框中心位置（bx,by）为格子长和宽为（0.4,0.3），（bh，bw）为红色边界框长和宽所占格子长和宽的比例（0.9,0.5），这个值可能会大于1，即超过格子范围。但是通常约定（bx,by,bh,bw）=(0.4,0.3,0.9,0.5)比较合理。

（2）Bounding boxes预测在YOLO中的应用

在图像上放一个网格，使用图像分类和定位算法，逐一应用到图像的格子上，每个格子对应一个y标签，y=（Pc,bx,by,bh,bw,c1,c2,c3,......），其中Pc为1或0，表示图中有无目标对象，若Pc为0，其他参数无效。（bx,by,bh,bw）表示图片对象的边框位置，(c1,c2,c3,......)表示对象的类别。

将整张图像划分3×3的格子，传给卷积层，通过反向传播训练，最后得到3×3×8的输出。这里3×3表示图像分为9个格子，会有9个预测值。8即表示每个格子中预测值y的纬度，y=（Pc,bx,by,bh,bw,c1,c2,c3)。若格子中有对象，Pc=1，则会有具体的（bx,by,bh,bw）边界框位置。若格子中无对象，Pc=0，则其他参数无效。若Pc等于1，再看（c1,c2,c3,...）中哪个为1，从而判断为那种类型的对象，再根据（bx,by,bh,bw）得到精确的边界框位置，即对象精确位置。