Rich feature hierarchies for accurate object detection and semantic segmentation
论文:https://arxiv.org/abs/1311.2524
架构
R-CNN的流程:
- 提取2000个候选框
- 从每个候选框提取特征向量
- 使用SVM分类器对每个特征向量进行分类
- 使用回归其修正候选框
模块设计
候选框。虽然R-CNN对于特定候选区域方法是未知的,但作者使用选择性搜索来提取候选区域。
特征提取。由于AlexNet 的输入是固定的 227 × 227 227\times 227 227×227,候选区域使用 AlexNet 提取一个4096维的特征向量,因此,需要将候选区域大小重置为 227 × 227 227\times 227 227×227。在重置前,将候选区域膨胀并加框。
在测试时,我们对测试图像进行选择性搜索,提取出大约2000个候选框。我们重置每个候选框,使用CNN对每个候选框提取特征向量(固定长度4096),2000个4096为特征矩阵(2000 x 4096),每个类别使用一个SVM对特征向量进行分类,得到类别概率,类别数为N,类别概率矩阵为 2000 x N,特征矩阵到概率矩阵:
[