目标检测2——R-CNN（将CNN网络应用在目标检测领域的开山之作）

知识复盘计划

已于 2024-01-13 20:05:43 修改

阅读量899

点赞数 23

分类专栏：目标检测文章标签：目标检测 cnn 人工智能计算机视觉神经网络图像处理

于 2024-01-11 23:25:37 首次发布

本文链接：https://blog.csdn.net/qq_45792437/article/details/135541122

版权

7 篇文章 0 订阅

订阅专栏

二阶段目标检测系列文章
目标检测1——二阶段目标检测概述
 目标检测2——R-CNN（将CNN网络应用在目标检测领域的开山之作）
目标检测3——SPPNet（空间金字塔池化可以接收任何尺度的图像）
目标检测4——Fast R-CNN（ROI Pooling、SVD、Multi-task Loss等新特性实现端到端的训练并显著提升训练和推理的速度）
目标检测5——Faster R-CNN（RPN网络代替Selective Search来获取候选框）

一、基本介绍

CVPR2014：Rich feature hierarchies for accurate object detection and semantic segmentation
R-CNN 的全称为 Regions with Convolutional Neural Network Features
R-CNN 是一种基于 Region Proposal 的 CNN 网络结构
R-CNN 是将深度学习应用到目标检测领域的经典之作，并凭借卷积神经网络出色的特征提取能力，大幅度提高了目标检测的效果
尽管R-CNN显著地提高了目标检测的效果，但仍存在以下问题：
- 重复计算
- 训练测试分为多步
- 训练的空间和时间代价很高
- 检测速度较慢 10s/image (GPU)、50s/image (CPU)
- 无法输入任意尺寸大小图片

Region Proposal：提取候选框/ROI（~2k/image，Selective Search）
ROI 预处理：先将候选框膨胀16像素（dilate），再将候选框缩放至227×227固定大小
特征提取：通过 CNN 网络提取每个候选区域的图像特征（AlexNet，4096维）
分类与回归：
- 分类：使用 N 个 SVM 分类器（二分类，FC7，N-类别数量）
- 回归：Bounding Box Regression 进行候选框的微调（Conv5）

在这里插入图片描述

黄色框口 P 表示建议框 Region Proposal
$P=(P_x, P_y, P_w, P_h)$
绿色窗口 G 表示实际框 Ground Truth
$G=(G_x, G_y, G_w, G_h)$
红色窗口 $\hat{G}$ 表示 Region Proposal 进行回归后的预测窗口
$\hat{G}=(\hat{G_x}, \hat{G_y}, \hat{G_w}, \hat{G_h})$
目标是找到 P 到 $\hat{G}$ 的线性变换

关注

专栏目录