FasterRCNN源码解析（三）——网络框架

最新推荐文章于 2024-07-20 17:36:52 发布

在学习的王哈哈

最新推荐文章于 2024-07-20 17:36:52 发布

阅读量1.3k

点赞数 3

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/prague6695/article/details/115013827

版权

本文是对FasterRCNN源码的解析，主要涵盖网络框架的各个环节：数据预处理、Backbone、RPN、Fast RCNN后半部分以及后处理步骤。详细介绍了各个模块的功能和参数设置，帮助读者理解FasterRCNN的工作流程。

摘要由CSDN通过智能技术生成

FasterRCNN源码解析——网络框架

前言

主要是对哔哩哔哩up主霹雳吧啦Wz所讲解的视频Faster RCNN源码解析(pytorch)进行一个总结回顾，以加深印象。

一、FasterRCNN流程图

FasterRCNN

黄色虚线框代表只有在训练过程中才有的部分

二、框架

在faster_rcnn/network_files/faster_rcnn_framework.py脚本中

1. `FasterRCNNBase`类

1.`init`

在初始化函数当中我们会传入backbone, rpn, roi_heads, transform四个参数分别对应框架图的四个部分

    def __init__(self, backbone, rpn, roi_heads, transform):
        super(FasterRCNNBase, self).__init__()
        self.transform = transform
        self.backbone = backbone
        self.rpn = rpn
        self.roi_heads = roi_heads
        # used only on torchscript mode
        self._has_warned = False

2.`forward`

传入的是图片以及其标签，也就是读取解析PASCAL VOC2012数据集一文中的__getitem__方法输出的image和target（type: (List[Tensor], list[Dict[Tensor]]））
这里输入的images的大小都是不同的，后面会进行预处理将这些图片放入同样大小的tensor中打包成一个batch

    def forward(self, images, targets=None):
        # type: (List[Tensor], Optional[List[Dict[str, Tensor]]]) -> Tuple[Dict[str, Tensor], List[Dict[str, Tensor]]]
        """
        Arguments:
            images (list[Tensor]): images to be processed
            targets (list[Dict[Tensor]]): ground-truth boxes present in the image (optional)

        Returns:
            result (list[BoxList] or dict[Tensor]): the output from the model.
                During training, it returns a dict[Tensor] which contains the losses.
                During testing, it returns list[BoxList] contains additional fields
                like `scores`, `labels` and `mask` (for Mask R-CNN models).

        """