maskrcnn-benchmark 代码详解之　box_coder.py

最新推荐文章于 2024-08-28 22:18:12 发布

leijieZhang

最新推荐文章于 2024-08-28 22:18:12 发布

阅读量2.4k

点赞数 5

分类专栏： maskrcnn benchmark 文章标签： maskrcnn benchmark box_coder.py b-box 回归代码详解目标检测

本文链接：https://blog.csdn.net/leijieZhang/article/details/90900906

版权

本文详细解析了maskrcnn-benchmark库中的box_coder.py，重点讨论了b-box回归在RCNN中的作用，如何通过映射函数将候选框转换为接近基准框，并介绍了在卷积神经网络中如何实现这一过程。

摘要由CSDN通过智能技术生成

前言

box_coder.py主要用于候选边框(proposal)的编码和解码，即求解RCNN论文中回归目标中的 t_* 以及预测边框。其主要针对的是RCNN和faster RCNN中的Bounding-box regression部分的操作。

１b-box 回归（RCNN)

假设现有获得的候选框（proposal）为Ｐ^i = (P_x^i) $\text{P}^i = (\text{P}_x^i, \text{P}_y^i, \text{P}_w^i, \text{P}_h^i)$ , 而基准框（ground-truth）为 $\text{G}^i = (\text{G}_x^i, \text{G}_y^i, \text{G}_w^i, \text{G}_h^i)$ , 我们需要找一种映射方式使得我们选取出来的候选框 $\text{P}^i$ 能够变换成或者映射到 $\text{G}^i$ . 针对每一个边框涉及到的x, y, w, h即边框中心坐标的x，y，以及边框的宽和高，我们分别设定有 d_x(P) , d_y(P) , d_w(P) , d_h(P) 这四种映射方式，分别可以帮助将 $\text{P}^i$ 的x, y, w, h变换成 $\text{G}^i$ 或者接近 $\text{G}^i$ 的x, y, w, h。