步骤:提取候选框->提取特征->分类
- R-CNN(region-cnn)
- 原理:通过selective search获取有效区域,统一大小之后输入CNN(AlexNet)提取特征,最后通过SVM进行分类。
- 缺点:计算量太大
- Map:58.5%(VOC 2017)
- SPPNet(sptial pyramid pooling convolutional networks空间金字塔池化卷积网络)
- 目标:将CNN输入从固定尺寸变成任意尺寸
- 原理:ROI池化层
- 做法:将卷积层分为4×4,2×2,1×1的网格,并使用最大池化得到16C,4C,1C的特征向量,然后将其拼接为21C维的特征向量,因此可将任意宽度高度的卷积特征转换为固定长度的向量
- 意义:可将原始图像不同长宽区域都对应到一个固定长度的向量特征
- 步骤:将图像进行一次卷积运算之后,得到图像的卷积特征,对于原始图像中的候选框,只需在卷积特征中找到对应的位置框,再使用ROI池化层对位置框的卷积进行提取特征,即完成特征提取工作
- 优点:R-CNN需要在每个区域计算卷积,而SPPNet只需要计算一次
- Fast-R-CNN
- 原理:使用神经网络代替SVM进行分类
- 做法:全连接层有两个输出,一个进行分类,一个进行框回归
- 框回归:学习参数(