神经网络解决对象分类和定位问题

最新推荐文章于 2022-10-03 22:24:43 发布

小小小绿叶

最新推荐文章于 2022-10-03 22:24:43 发布

阅读量2.5k

点赞数 3

本文链接：https://blog.csdn.net/litt1e/article/details/87729884

版权

图像分类：即算法遍历图片，判断其中的对象是不是汽车
定位分类问题：即用算法判断图中是否有汽车还要在图中标记出它的位置，用红色方框圈起来。
在这里插入图片描述
图像分类，例如输入一张图片到多层卷积神经网络，它会输出一个特征向量并反馈给softmax来预测图片类型。

如果还想定位图片中汽车的位置，该怎么做呢？我们可以让神经网络多输出几个单元，输出一个边界框（bounding box）。具体说就是让神经网络再多输出4个数字（bx，by，bh，bw被检测对象的边界框参数化表示）。
在这里插入图片描述
我们假设图片左上角的坐标（0，0），右下角标记为（1，1），要想确定边界框的具体位置，需要制定红色方框的中心点，这个点表示为（bx，by）边界框的高度为bh，宽度为bw。因此训练集不仅包含神经网络要预测的对象分类标签还包含表示边界框的这四个数字。接着采用监督学习算法输出一个分类标签还有四个参数值，从而给出被检测对象的边界框位置。此例中bx的理想值是0.5，by大约0.7，bh约为0.3，bw=0.4。
在这里插入图片描述
下面我们讲讲如何为监督学习任务定义目标标签y。这里有4个分类，神经网络输出的是这四个数字和一个分类标签。目标标签y的定义如下，它是一个向量，第一个组件Pc表示是否含有对象，如果对象属于前三类则Pc=1。如果对象属于background则Pc=0。我们可以把Pc理解为被检测对象属于某一分类的概率。如果检测出有对象，那么输出被检测对象的边界框参数bx，by，bh，bw。如果存在某对象即Pc=1，同时输出c1，c2，c3，用它来表示该对象属于1-3中的哪一类。
在这里插入图片描述
训练神经网络的损失函数，其参数为类别Y和网络输出Y^，损失值等于每个元素相应插值的平方和。如果图片中存在定位对象，那么Y1=1，即Y1=Pc，另一种情况是Y1=0，对于这种情况，我们不用考虑其他元素。