(杂)解释 为什么目标检测不直接预测真实坐标

为什么接的8个维度可以代表 4coord 3classes 1conf?我的理解是:原因是:网络这么搭,才能通过参数不断的更新,学习,得到合适的值,以提取到“合适”的特征区分类别,拟合4个坐标点 的目的。yolo v1中就是直接预测真实坐标,但是这样会导致定位不准确,yolo v2, v3对此做出了改进,定位不准确的原因其中一个是:预测坐标为Px, 真实坐标为Gx,计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2,假设计算出来的坐标loss为1,它对于大框来说,这个loss偏小,但是对于小
摘要由CSDN通过智能技术生成

为什么输出的8个维度可以代表 4coord 3classes 1conf?

我的理解是:
原因是:输入数据标签格式就是这样子,网络这么搭,才能通过参数不断的更新,学习,得到合适的值,以提取到“合适”的特征区分类别,拟合4个坐标点 的目的。

yolo v1中就是直接预测真实坐标,但是这样会导致定位不准确,yolo v2, v3对此做出了改进,定位不准确的原因其中一个是:

预测坐标为Px, 真实坐标为Gx,计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2,假设计算出来的坐标loss为1,它对于大框来说,这个loss偏高,但是对于小框来说,这个loss偏低, yolo v1里对w, h取了平方根来缓和这个问题,但是不能解决这个问题,简而言之直接预测真实坐标产生的loss并不能真正反映预测框的好坏

yolo v1直接预测x, y, w, h,计算坐标loss使用平方差,yolo v1对w, h取了平方根,但是直接预测真实框的坐标值会导致定位不准确,原因是:假设这个loss为1,loss看起来很低,但是对于小框而言,轻微的坐标数值上的偏移,导致视觉上极大的预测偏差,假设这个loss为10,loss看起来很大,但是对于大框而言,很高的坐标数值上的偏移,导致视觉上很小的预测偏差,一句话总结:直接预测真实坐标所产生的loss并不能真正反映预测框的好坏(yolo v1对w, h取了平方根,可以有效缓解这个问题,但是并不能解决这个问题)
RCNN进一步优化了论文1中的bbox re

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值