YOLO吴恩达（0706）

最新推荐文章于 2023-09-27 20:28:51 发布

a_12398

最新推荐文章于 2023-09-27 20:28:51 发布

阅读量199

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/a_12398/article/details/107149818

版权

1.classification with localization(定位分类）
图像识别只是可以将图片中的物体进行分类，而目标识别是在可以分类的基础上，对物体进行定位。
2.图像分类：图片进入卷积神经网络，输出一组特征向量，并反馈给softmax单元来预测图片类型
一、只考虑图片中包含一个对象
1.训练集的制作
以自动驾驶为例，需要将图片分为四类：行人、汽车、摩托车、背景（不含上面三类）。这是softmax输出的四种结果。

如果想要进一步确定图中车的位置，就需要神经网络多输出几个单元，确定一个边界框（bx,by,bh.bw)，bx、by指图片中心点的位置，bh、bw为边框的高和宽。在一个图片中，左上角为（0，0），右下角为（1，1）
对于神经网络的训练集来说，输入不仅要包含种类，还有可以确定边界框的四个数字。
对于目标标签Y，是一个1*8的向量。pc
表示是否有检测对象，有前三类对象，为1，检测背景，为0；bx,by,bh.bw为对象的边框数据；c1,c2,c3为类别，例如图片中检测为只有汽车，则输出(0,1,0)。对于上面照片，如果作为训练图片，图片为X输入，标签Y为 $Y=\left[\begin{array}{l} 1 \\ b_{x} \\ b_{y} \\ b_{h} \\ b_{w} \\ 0 \\ 1 \\ 0 \end{array}\right]$
如果图片如在这里插入图片描述那么pc=0，后面的参数将毫无意义，也就不需要关心它是什么了。
对于只有单目标的目标识别，训练集就是这样制作的，对应每一个图片X，都有目标标签Y，Y中包含了我们所需要的元素。
2.损失函数
给定标签为Y，预测标签为 $\hat{\mathrm{Y}}$ ,那么损失函数可定义为 $\mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y})$ .如果采用平方误差法 $\mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y})=\left(\hat{y}_{1}-y_{1}\right)^{2}+\left(\hat{y}_{2}-y_{2}\right)^{2}+\cdots+\left(\hat{y}_{8}-y_{8}\right)^{2}$ ,y1=1. $\mathrm{L}(\hat{\mathrm{Y}}, \mathrm{Y})=\left(\hat{y}_{1}-y_{1}\right)^{2}$ ,y1=0.也就是当图像中有类别时，损失函数是所有值的平方差和，如果只是背景，损失函数就是pc的平方差和。
实际中，通常是只对描述边框的四个数据进行平方差求和或其他方法，对C1,C2,C3和softmax的输出不做平方差求和处理