为什么输出的8个维度可以代表 4coord 3classes 1conf?
我的理解是:
原因是:输入数据标签格式就是这样子,网络这么搭,才能通过参数不断的更新,学习,得到合适的值,以提取到“合适”的特征区分类别,拟合4个坐标点 的目的。
yolo v1中就是直接预测真实坐标,但是这样会导致定位不准确,yolo v2, v3对此做出了改进,定位不准确的原因其中一个是:
预测坐标为Px, 真实坐标为Gx,计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2,假设计算出来的坐标loss为1,它对于大框来说,这个loss偏高,但是对于小框来说,这个loss偏低, yolo v1里对w, h取了平方根来缓和这个问题,但是不能解决这个问题,简而言之直接预测真实坐标产生的loss并不能真正反映预测框的好坏
yolo v1直接预测x, y, w, h,计算坐标loss使用平方差,yolo v1对w, h取了平方根,但是直接预测真实框的坐标值会导致定位不准确,原因是:假设这个loss为1,loss看起来很低,但是对于小框而言,轻微的坐标数值上的偏移,导致视觉上极大的预测偏差,假设这个loss为10,loss看起来很大,但是对于大框而言,很高的坐标数值上的偏移,导致视觉上很小的预测偏差,一句话总结:直接预测真实坐标所产生的loss并不能真正反映预测框的好坏(yolo v1对w, h取了平方根,可以有效缓解这个问题,但是并不能解决这个问题)
RCNN进一步优化了论文1中的bbox re