1.目标定位
目标定位:使用算法判断图片中是不是目标物体,如果是还要再图片中标出其位置并使用边框标记出来
在普通的图片分类网络中,对于一个图片,经过卷积层特征提取后,送入softmax层转为为对于的概率
而分类定位则是在图片分类网络的基础上加入了全连接层的输出bx,by,bh,bw和一个分类标签(c1,c2,c3...),其最后输出形式如下:
其中:
Pc:表示是否含有被检测的对象。假设要检验汽车、摩托车、行人、图片背景。因为我们需要检测的目标图片肯定不会关注其背景,所以前三个检测对象是我们所需要 。那么如果出现前三个检测对象则Pc为1,如果出现图片为背景或者其他不是我们需要的情况则Pc为0。
bx,by,bh,bw:bx,by为标记边框的中心位置坐标,bh,bw:为标记边框的长高。将图片归一化,设图片左上角标记为(0,0),右下角标记为(1,1),对于图中汽车中心点,其数据大概可以是 bx =0.5,by = 0.7 。对于bounding box,其 bh = 0.3,bw = 0.4
c1,c2,c3.....cn:为分类标签,n对应自己实际的分类标签个数。但是在c1,c2,c3.....cn 中只有一个为1,其余为0。若分类标签有三个分别是汽车,摩托车和行人,根据上图分类所以c1=1,c2=0,c3=0
综上所述所以,输出的y实际为损失函数计算:
Pc为1时,即检测出了感兴趣的物体,损失值等于每个元素相应差值的平方,即输出y中的每个元素作差再求平方和
Pc为0时,即没检测出感兴趣的物体,只需关注网络输出Pc的准确性,y1即为Pc值
如上图的y中有8个元素,当pc=0时后面七个元素我们是不关心的所以只需要计算y1这一个元素如下: