FasterRcnn中boundingbox regression的一些理解

最新推荐文章于 2023-05-13 13:18:14 发布

qian99

最新推荐文章于 2023-05-13 13:18:14 发布

阅读量2.4k

点赞数

分类专栏：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qian99/article/details/82218963

版权

人工智能深度学习专栏收录该内容

32 篇文章 31 订阅

订阅专栏

在fasterrcnn中，做框的回归，有三个输入，anchor，预测的框，groundtruth的框。一个框的表示，使用中心点 $(x, y)$ ，和框的宽高 $(w,h)$ 表示。

那么这个回归的loss怎么算呢？首先看下图：

其中：
绿框：ground truth box
红框：predict box
蓝框：anchor box

首先我们需要明白下面两个问题：
1. anchor box， ground truth box和predict box的宽高的大小之间没有大小关系，哪个框都有可能比其他框大或者小
2. 坐标值与宽高不能用绝对值，也就是用原始的坐标和宽高，这是由于做了roipooling，将每个anchorbox的feature变成了同样的size。

所以，做这个回归，要先对box的值做一些处理：

$x_a$ 表示anchor box的 $x$ , $x$ 表示predict box的 $x$ ， $x^*$ 表示ground truth box的 $x$ 。剩下的 $y , w, h$ 同理。

可以看出来，这里 $t_x， t_y$ 是计算了相对于anchor box中心点的相对距离，然后做了normalize。

但是 $t_w, t_h$ 呢？为什么要用一个 $log$ 呢，刚开始一直没想明白，后来发现，这其实是个很简单的事情，上面说了，实际上的 $w, h, w^*, h^*$ 可能大于或小于 $w^a, h^a$ ，但实际我们想要的值是一个范围是 $(0, 1]$ 的值，表示预测的结果是anchor box宽高的多少倍。比较容易想到的是使用指数函数来“包装”一下：

简单来说，假设回归结果为 $w_p, h_p$ ，那么实际的预测结果就应该为：

w = e x p (w p) * w a

$w = exp(w_p) * w_a$

h = e x p (h p) * h a

$h = exp(h_p) * h_a$

这下就清楚了，为了预测结果是exp的形式，在训练的时候，就要把输入做“反向”的处理，也就是 $t_w = log(w/w_a)$ 。

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
8
评论
FasterRcnn中boundingbox regression的一些理解

在fasterrcnn中，做框的回归，有三个输入，anchor，预测的框，groundtruth的框。一个框的表示，使用中心点(x,y)(x,y)(x, y)，和框的宽高(w,h)(w,h)(w,h)表示。那么这个回归的loss怎么算呢？首先看下图：其中：绿框：ground truth box 红框：predict box 蓝框：anchor box首先我们需要明白下面两个...
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。