FasterRCNN源码解析（七）——RPN（下）损失计算部分

最新推荐文章于 2023-10-08 18:53:06 发布

在学习的王哈哈

最新推荐文章于 2023-10-08 18:53:06 发布

阅读量2k

点赞数 2

分类专栏：计算机视觉文章标签： python pytorch 神经网络深度学习

本文链接：https://blog.csdn.net/prague6695/article/details/115179335

版权

本文详细解析FasterRCNN的RPN损失计算过程，包括匹配anchors与gtboxes，计算正负样本，以及边界框回归和目标预测概率损失。通过assign_targets_to_anchors确定正负样本，box_coder.encode计算回归参数，compute_loss计算两类损失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FasterRCNN源码解析（七）——RPN（下）损失计算部分

主要有以下两个步骤

利用我们标注的gtboxes与生成的anchors进行匹配生成我们的正负样本
利用正负样本计算 PRNloss

文章目录

FasterRCNN源码解析（七）——RPN（下）损失计算部分
一、self.assign_targets_to_anchors(anchors, targets)
- 如何计算每个anchors与gt匹配iou最大的索引
二、self.box_coder.encode(matched_gt_boxes, anchors)
三、 self.compute_loss()

一、self.assign_targets_to_anchors(anchors, targets)

计算每个anchors最匹配的gt，并将anchors进行分类，前景，背景以及废弃的anchors
其返回值为：
labels: 标记anchors归属类别（1, 0, -1分别对应正样本，背景，废弃的样本）
注意，在RPN中只有前景和背景，所有正样本的类别都是1，0代表背景
matched_gt_boxes：与anchors匹配的gt

其主要步骤有：
遍历每张图像的anchors和targets

获取每张图像的真实位置信息即boxes值
计算anchors与真实bbox的iou信息，输出shape为 $1 * 261888$ ,其中1代表在该张图片中有1一个真实标签
计算每个anchors与gt匹配iou最大的索引（如果iou<0.3索引置为-1，0.3<iou<0.7索引为-2）返回的是tensor，其数值就是-1 代表负样本，-2代表将要淘汰的样本，大于等于0的代表正样本，预测正确样本的标签值（详见第1节）
获取每一个anchor索匹配的对应的gt boxes坐标（将对应-1和-2的anchors匹配为索引为0的gt boxes坐标）并添加到 matched_gt_boxes中
得到正样本，负样本，以及要丢弃的anchors所对应的蒙版，分别将labels_per_image所对应的位置置为1，0.0，-1，并添加到labels中
最后返回我们的 matched_gt_boxes和labels

如何计算每个anchors与gt匹配iou最大的索引

通过det_utils.py索引中的Macher类进行计算

记录每个anchors与所有gt匹配的最大iou值及其最大值所对应的索引（这里的索引以及下面的索引值都是对真实标签的索引值，有三个真实标签，索引值只有0，1，2）
计算iou小于low_threshold的索引
计算iou在low_threshold与high_threshold之间的索引值
iou小于low_threshold的matches索引置为-1
iou在[low_threshold, high_threshold]之间的matches索引置为-2
把iou值最大的也设为正样本