FasterRCNN源码解析（四）——GeneralizedRCNNTransform部分

最新推荐文章于 2024-05-15 06:21:02 发布

在学习的王哈哈

最新推荐文章于 2024-05-15 06:21:02 发布

阅读量1.5k

点赞数 2

分类专栏：计算机视觉文章标签： python 人工智能

本文链接：https://blog.csdn.net/prague6695/article/details/115085401

版权

本文深入解析FasterRCNN框架中的数据预处理模块GeneralizedRCNNTransform，涵盖标准化处理、resize、batch_images等功能，详细阐述了如何将图像和boxes转换为适合训练的格式。

摘要由CSDN通过智能技术生成

FasterRCNN源码解析（四）——GeneralizedRCNNTransform部分

文章目录

FasterRCNN源码解析（四）——GeneralizedRCNNTransform部分
前言
一、前期训练部分
二、GeneralizedRCNNTransform

前言

主要是对框架中对数据进行预处理的类进行解读，重点在于数据集以及标签的转化上进行剖析

一、前期训练部分

在我们train_res50_fpn.py脚本中，我们先通过读取解析PASCAL VOC2012数据集一文中的VOC2012DataSet类来获取我们的数据集

# load train data set
# VOCdevkit -> VOC2012 -> ImageSets -> Main -> train.txt
train_data_set = VOC2012DataSet(VOC_root, data_transform["train"], "train.txt")

在这里插入图片描述
然后我们对获得的数据用torch.utils.data.DataLoader进行载入，batch_size设为2，其中train_data_set.collate_fn方法是将我们的数据集 img和target 各自打包放在一起

	train_data_loader = torch.utils.data.DataLoader(train_data_set,
                                                    batch_size=batch_size,
                                                    shuffle=True,
                                                    num_workers=nw,
                                                    collate_fn=train_data_set.collate_fn)

二、GeneralizedRCNNTransform

这一模块的作用就是将图片标准化，并将图片缩放到统一尺大小，经过这一模块之后才得到真正的batch数据

1.标准化处理函数

$(图像数据 - 均值) / 方差$

    def normalize(self, image):
        """标准化处理"""
        dtype, device = image.dtype, image.device
        mean = torch.as_tensor(self.image_mean, dtype=dtype, device=device)
        std = torch.as_tensor(self.image_std, dtype=dtype, device=device)
        # [:, None, None]: shape [3] -> [3, 1, 1]
        return (image - mean[:, None, None]) / std[:, None, None]

2.resize函数

获取缩放因子
对图片进行缩放
对boxes进行缩放

    def resize(self, image, target):
        # type: (Tensor, Optional[Dict[str, Tensor]]) -> Tuple[Tensor, Optional[Dict[str, Tensor]]]
        """
        将图片缩放到指定的大小范围内，并对应缩放bboxes信息
        Args:
            image: 输入的图片
            target: 输入图片的相关信息（包括bboxes信息）

        Returns:
            image: 缩放后的图片
            target: 缩放bboxes后的图片相关信息
        """
        # image shape is [channel, height, width]
        h, w = image.shape[-2:]
        im_shape = torch.tensor(image.shape[-2:])
        min_size = float(torch.min(

最低0.47元/天解锁文章

在学习的王哈哈

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
FasterRCNN源码解析（四）——GeneralizedRCNNTransform部分

FasterRCNN源码解析GeneralizedRCNNTransform部分（三）文章目录FasterRCNN源码解析GeneralizedRCNNTransform部分（三）前言一、前期训练部分二、使用步骤1.引入库2.读入数据总结前言主要是对框架中对数据进行预处理的类进行解读，重点在于数据集以及标签的转化上进行剖析一、前期训练部分在我们train_res50_fpn.py脚本中，我们先通过读取解析PASCAL VOC2012数据集一文中的VOC2012DataSet类来获取我们的数据
复制链接

扫一扫

专栏目录