从YOLOv1谈到YOLOv2（4）二代准确度的改进（下）

最新推荐文章于 2024-08-05 18:41:17 发布

发条蟀

最新推荐文章于 2024-08-05 18:41:17 发布

阅读量1.7k

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/gzs0927/article/details/78387718

版权

计算机视觉专栏收录该内容

4 篇文章 0 订阅

订阅专栏

5、直接位置预测

使用anchor boxes的另一个问题是模型不稳定，尤其是在早期迭代的时候。大部分的不稳定现象出现在预测box的（x,y）坐标时。具体解释一下，就是因为一开始cell对于box位置的预测如果是全图随机的，对于一张图片来说，开始的范围很大，所以在训练初期在全图范围内变动会很大，也就是所谓的不稳定了。这里的直接位置预测说白了就是把对box位置的预测不再是基于全图，box的中心规定在cell之中。
在区域建议网络（RPN）中会预测坐标就是预测tx，ty。对应的中心点（x,y）按如下公式计算：

x=(t_x*w_a)-x_a;
y=(t_y*h_a)-y_a;
可见预测tx=1就会把box向右移动anchor box的宽度，预测tx=-1就会把box向左移动相同的距离。

这个公式没有任何限制，无论在什么位置进行预测，任何anchor boxes可以在图像中任意一点。模型随机初始化之后将需要很长一段时间才能稳定预测敏感的物体偏移。因此作者没有采用这种方法，而是预测相对于grid cell的坐标位置，同时把ground truth限制在0到1之间（利用logistic激活函数约束网络的预测值来达到此限制）。

最终，网络在特征图（13 *13 ）的每个cell上预测5个bounding box，每一个bounding box预测5个坐标值：tx，ty，tw，th，to。如果这个cell距离图像左上角的边距为（cx，cy）以及该cell对应的box维度（bounding box prior）的长和宽分别为（pw，ph），那么对应的box为：

这里写图片描述