faster RCNN _Proposal_Layer 学习记录

参考https://blog.csdn.net/weixin_41693877/article/details/107159304

大概过程

(1)生成所有anchor
(2)根据回归得到的 偏移量预测数据,对生成的anchor进行修正,并且将超出原图边界之外部分的边框修正到边界,即proposal
(3)利用网络预测的得分,对proposal进行排序,取靠前的部分。再对proposal进行NMS,取前2000个作为结果。

1 生成所有anchor

https://blog.csdn.net/weixin_43436587/article/details/108082934 可以移步目标数据生成部分。

2 修正proposal

		# 生成anchor后,首先利用回归网络对anchor进行偏移修整, (batch, 16650, 4)
		# 回归得到的是一个偏移量,利用得到的偏移量对原本的anchor进行修正
		#anchors 是之前生成的,bbox_deltas是回归分支输出
        proposals = bbox_transform_inv(anchors, bbox_deltas, batch_size)

        # 2. clip predicted boxes to image
        # 严格限制proposal的四个角在图像边界内
        # 将超出图像范围的边框修整到图像边界,(batch, 16650, 4)
        proposals = clip_boxes(proposals, im_info, batch_size)
        

3 取得分较高的proposal进行NMS

        scores_keep = scores  # (batch, 16650)
        proposals_keep = proposals # (batch, 16650, 4)
        _, order = torch.sort(scores_keep, 1, True)

	    output = scores.new(batch_size, post_nms_topN, 5).zero_()
        for i in range(batch_size):
            proposals_single = proposals_keep[i] # 取出单个样本的候选框
            scores_single = scores_keep[i]       # 取出单个样本的前景概率
            order_single = order[i]    # 取出单个样本的的前景概率排序索引

             # 选取前12000个(训练阶段)
            if pre_nms_topN > 0 and pre_nms_topN < scores_keep.numel():
                order_single = order_single[:pre_nms_topN]

            # 取得分最高的前12000(训练阶段)
            proposals_single = proposals_single[order_single, :]
            scores_single = scores_single[order_single].view(-1,1)
            
            # 进行NMS
            keep_idx_i = nms(torch.cat((proposals_single, scores_single), 1), nms_thresh, force_cpu=not cfg.USE_GPU_NMS)
            keep_idx_i = keep_idx_i.long().view(-1)

            # 最终选择前2000个,作为最终的Proposal输出
            if post_nms_topN > 0:
                keep_idx_i = keep_idx_i[:post_nms_topN]
            proposals_single = proposals_single[keep_idx_i, :]
            scores_single = scores_single[keep_idx_i, :]

            # padding 0 at the end.
            num_proposal = proposals_single.size(0)
            output[i,:,0] = i
            output[i,:num_proposal,1:] = proposals_single

取出的样本的scores_single、scores_single、以及order,根据order选出scores、proposals、排在前12000的部分,进行NMS,取前2000个作为输出。

在 PyTorch 中使用 `faster_rcnn_resnet50_fpn` 模型,可以按照以下步骤进行: 1. 安装 PyTorch 和 TorchVision 库(如果未安装的话)。 2. 导入必要的库和模块: ```python import torch import torchvision from torchvision.models.detection.faster_rcnn import FastRCNNPredictor ``` 3. 加载预训练模型 `faster_rcnn_resnet50_fpn`: ```python model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True) ``` 4. 修改模型的分类器,将其调整为适合你的任务。由于 `faster_rcnn_resnet50_fpn` 是一个目标检测模型,它的分类器通常是用来检测物体类别的。如果你的任务不需要检测物体类别,可以将分类器替换为一个只有一个输出的线性层: ```python num_classes = 1 # 只检测一个类别 in_features = model.roi_heads.box_predictor.cls_score.in_features model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes) ``` 5. 将模型转换为训练模式,并将其移动到所选设备(如GPU)上: ```python device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu') model.to(device) model.train() # 转换为训练模式 ``` 6. 训练模型,可以使用自己的数据集来训练模型,或者使用 TorchVision 中的数据集,如 Coco 或 Pascal VOC 数据集。 7. 在测试阶段,可以使用以下代码来检测图像中的物体: ```python # 定义图像 image = Image.open('test.jpg') # 转换为Tensor,并将其移动到设备上 image_tensor = torchvision.transforms.functional.to_tensor(image) image_tensor = image_tensor.to(device) # 执行推理 model.eval() with torch.no_grad(): outputs = model([image_tensor]) # 处理输出 boxes = outputs[0]['boxes'].cpu().numpy() # 物体框 scores = outputs[0]['scores'].cpu().numpy() # 物体分数 ``` 需要注意的是,`faster_rcnn_resnet50_fpn` 是一个较大的模型,需要较高的计算资源和训练时间。在训练和测试时,建议使用GPU来加速计算。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值