maskrcnn-benchmark 代码详解之 box_coder.py

本文详细解析了maskrcnn-benchmark库中的box_coder.py,重点讨论了b-box回归在RCNN中的作用,如何通过映射函数将候选框转换为接近基准框,并介绍了在卷积神经网络中如何实现这一过程。
摘要由CSDN通过智能技术生成

前言

    box_coder.py主要用于候选边框(proposal)的编码和解码,即求解RCNN论文中回归目标中的t_*以及预测边框。其主要针对的是RCNN和faster RCNN中的Bounding-box regression部分的操作。

1b-box 回归(RCNN)

   假设现有获得的候选框(proposal)为P^i = (P_x^i)\text{P}^i = (\text{P}_x^i, \text{P}_y^i, \text{P}_w^i, \text{P}_h^i), 而基准框(ground-truth)为\text{G}^i = (\text{G}_x^i, \text{G}_y^i, \text{G}_w^i, \text{G}_h^i), 我们需要找一种映射方式使得我们选取出来的候选框\text{P}^i能够变换成或者映射到\text{G}^i. 针对每一个边框涉及到的x, y, w, h即边框中心坐标的x,y,以及边框的宽和高,我们分别设定有d_x(P), d_y(P), d_w(P), d_h(P)这四种映射方式,分别可以帮助将\text{P}^i的x, y, w, h变换成\text{G}^i或者接近\text{G}^i的x, y, w, h。

 我们设定有d_x(P), d_y(P), d_w(P), d_h(P)中,d_x(P)d_y(P)只是尺度方面的变换,即对坐标进行变大或变小以次来移动边框的中心坐标。而针对d_w(P)d_h(P)采用对数空间的变

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值