（杂）解释为什么目标检测不直接预测真实坐标

最新推荐文章于 2024-05-17 18:54:15 发布

薛定谔的炼丹炉！

最新推荐文章于 2024-05-17 18:54:15 发布

阅读量1k

点赞数 2

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_43703185/article/details/107225374

版权

为什么接的8个维度可以代表 4coord 3classes 1conf？我的理解是：原因是：网络这么搭，才能通过参数不断的更新，学习，得到合适的值，以提取到“合适”的特征区分类别，拟合4个坐标点的目的。yolo v1中就是直接预测真实坐标，但是这样会导致定位不准确，yolo v2, v3对此做出了改进，定位不准确的原因其中一个是：预测坐标为Px, 真实坐标为Gx，计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2，假设计算出来的坐标loss为1，它对于大框来说，这个loss偏小，但是对于小

摘要由CSDN通过智能技术生成

为什么输出的8个维度可以代表 4coord 3classes 1conf？

我的理解是：
原因是：输入数据标签格式就是这样子，网络这么搭，才能通过参数不断的更新，学习，得到合适的值，以提取到“合适”的特征区分类别，拟合4个坐标点的目的。

yolo v1中就是直接预测真实坐标，但是这样会导致定位不准确，yolo v2, v3对此做出了改进，定位不准确的原因其中一个是：

预测坐标为Px, 真实坐标为Gx，计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2，假设计算出来的坐标loss为1，它对于大框来说，这个loss偏高，但是对于小框来说，这个loss偏低, yolo v1里对w, h取了平方根来缓和这个问题，但是不能解决这个问题，简而言之直接预测真实坐标产生的loss并不能真正反映预测框的好坏

yolo v1直接预测x, y, w, h，计算坐标loss使用平方差，yolo v1对w, h取了平方根，但是直接预测真实框的坐标值会导致定位不准确，原因是：假设这个loss为1，loss看起来很低，但是对于小框而言，轻微的坐标数值上的偏移，导致视觉上极大的预测偏差，假设这个loss为10，loss看起来很大，但是对于大框而言，很高的坐标数值上的偏移，导致视觉上很小的预测偏差，一句话总结：直接预测真实坐标所产生的loss并不能真正反映预测框的好坏(yolo v1对w, h取了平方根，可以有效缓解这个问题，但是并不能解决这个问题)
RCNN进一步优化了论文1中的bbox re

最低0.47元/天解锁文章

薛定谔的炼丹炉！

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
（杂）解释为什么目标检测不直接预测真实坐标

为什么接的8个维度可以代表 4coord 3classes 1conf？我的理解是：原因是：网络这么搭，才能通过参数不断的更新，学习，得到合适的值，以提取到“合适”的特征区分类别，拟合4个坐标点的目的。yolo v1中就是直接预测真实坐标，但是这样会导致定位不准确，yolo v2, v3对此做出了改进，定位不准确的原因其中一个是：预测坐标为Px, 真实坐标为Gx，计算坐标loss时使用|Px-Gx|或者(Px-Gx)^2，假设计算出来的坐标loss为1，它对于大框来说，这个loss偏小，但是对于小
复制链接

扫一扫