3.1 目标定位
定位分类问题意味着我们不仅要用算法判断出图片中是否有该物体,还要标记出它的位置,例如图片有一辆汽车,我们需要用边框把汽车圈起来。
图像分类问题已不陌生,例如输入一张图片到多层卷积神经网络,它会输出一个特征向量,并反馈给softmax来预测图片类型。
比如某张图片包括以下几类,人,汽车,摩托车,背景。如果在该张图片中没有检测到对象,则输出结果就会是背景,这些分类就是softmax函数可能输出的结果。
如果还想定位图片中的汽车,行人等的位置,此时我们可以让神经网络多输出几个单元,输出一个边界框,具体来说就是让神经网络多输出四个数字,标记为bx,by,bh,bw分别代表边框的中心坐标,以及边框的长和宽,当然还可以有其他的表示方法。
定义以下标签
行人
汽车
摩托车
背景
注意:这里有4个分类,神经网络输出的是这 4个数字,和一个分类标签出现的概率。目标标签Y的定义如下:他是一个向量。如下所示: y=[pcbxbybhbwc1c2