深度学习笔记（32）目标定位

最新推荐文章于 2024-08-21 09:43:43 发布

氢键H-H

最新推荐文章于 2024-08-21 09:43:43 发布

阅读量1.5w

点赞数 8

分类专栏：深度学习笔记文章标签：目标定位

本文为氢键H-H原创文章，未经允许请勿用于商业用途，转载请注明出处

本文链接：https://blog.csdn.net/qq_32618327/article/details/95336297

版权

深度学习笔记专栏收录该内容

52 篇文章 83 订阅

订阅专栏

深度学习笔记（32）目标定位

1. 定位分类
2. 定位边框
3. 分类标签
4. 损失函数

1. 定位分类

图片分类任务已经熟悉了，就是算法遍历图片，判断其中的对象是不是汽车
定位分类问题，这意味着不仅要用算法判断图片中是不是一辆汽车
还要在图片中标记出它的位置
在这里插入图片描述
如果正在构建汽车自动驾驶系统，那么对象可能包括以下几类：行人、汽车、摩托车和背景
这意味着图片中没有行人、摩托车和背景，输出结果会是汽车

2. 定位边框

如果还想定位图片中汽车的位置
那么可以让神经网络多输出几个单元，输出一个边界框
具体说就是让神经网络再多输出4个数字，标记为b_x,b_y,b_h和b_w
这四个数字是被检测对象的边界框的参数化表示
在这里插入图片描述
图片左上角的坐标为(0,0)，右下角标记为(1,1)
要确定边界框的具体位置，需要指定红色方框的中心点
这个点表示为(b_x,b_y)，边界框的高度为b_h，宽度为b_w

因此训练集不仅包含神经网络要预测的对象分类标签
还要包含表示边界框的这四个数字
接着采用监督学习算法，输出一个分类标签，还有四个参数值，从而给出检测对象的边框位置

此例中，b_x的理想值是0.5，表示汽车位于图片水平方向的中间位置
b_y大约是0.7，表示汽车位于距离图片底部3/10的位置
b_h约为0.3，因为红色方框的高度是图片高度的0.3倍
b_w约为0.4，红色方框的宽度是图片宽度的0.4倍
为监督学习任务定义目标标签 y，这有四个分类

3. 分类标签

神经网络输出的是这四个数字和一个分类标签或分类标签的概率
目标标签y的定义如下：
$\left[ \begin{matrix} p_c \\b_x\\b_y\\b_h\\b_w\\c_1\\c_2\\c_3 \end{matrix} \right]$
如果对象属于前三类（行人、汽车、摩托车），则p_c=1
如果是背景，则图片中没有要检测的对象，则p_c=0
可以这样理解p_c，它表示被检测对象属于某一分类的概率，背景分类除外

如果检测到对象，就输出被检测对象的边界框参数b_x、b_y、b_h和b_w
最后，如果存在某个对象，那么p_c=1
同时输出c₁、c₂和c₃，表示该对象属于行人，汽车还是摩托车中的哪一类

鉴于所要处理的问题，假设图片中只含有一个对象
所以针对这个分类定位问题，图片最多只会出现其中一个对象

假如这是一张训练集图片，标记为x，即上图的汽车图片
而在y当中，第一个元素p_c=1
因为图中有一辆车，b_x、b_y、b_h和b_w会指明边界框的位置
所以标签训练集需要标签的边界框
在这里插入图片描述
图片中是一辆车，所以结果属于分类2，因为定位目标不是行人或摩托车，而是汽车
所以c₁=0，c₂=1，c₃=0
并且c₁、c₂和c₃中最多只有一个等于1

如果在背景图片的情况下
在这里插入图片描述
p_c=0，y的其它参数将变得毫无意义
全部写成问号，表示“毫无意义”的参数

4. 损失函数

神经网络的损失函数，其参数为类别 $y$ 和网络输出 $\hat{y}$
如果采用平方误差策略，则L( $\hat{y}$ , $y$ ) = ( $\hat{y}$ ₁ - $y$ ₁)² +( $\hat{y}$ ₂ - $y$ ₂)^2 +⋯( $\hat{y}$ ₈ - $y$ ₈)^2
损失值等于每个元素相应差值的平方和