一.RCNN
总结:先使用选择性搜索方法(Selective Search)1000-2000个候选区域,将候选区域归一化到同一尺寸(227×227)提取每个候选区域的特征,在传入到SNM分类器中,使用线性回归器调整候选框的位置,使用非极大抑制NMS来抑制剔除重叠建议框。
RCNN特征提取网络:AlexNet网络
二.Fast RCNN
总结:先使用选择性搜索方法确定1000-2000个候选区域,再将整张图像作为CNN的输入,获取特征图;然后在通过候选框对特征图找到对应的特征框。再通过ROI池化层将不同大小的特征框转换成相同大小;然后在传入到分类器中进行分类后,通过回归器进一步调整其位置。
区别:
- 分类器使用的是SoftMax
- 不再是将1000-2000个候选区域作为特征提取网络的输入来提取特征,而是将整张图像作为特征提取网络的输入。
- 用Roi Pooling进行特征的尺寸变换
三.Faster RCNN
总结:将图像传输到CNN提取特征图,使用RPN生成候选框,并对候选框投影到特征图中获得ROI区域的特征矩阵;在将特征矩阵通过ROI pooling缩放到7*7大小,并将特征图展平为vector,在通过全连接层得到预测结果;
介绍RPN网络
RPN 网络由两条分支构成。第一条是分类分支,用以判断目标是否存在。首先利用卷积整合输入特征图的通道信息,然后将锚框在特征图上滑动搜寻有价值的信息,并根据搜寻结果生成候选区域,最后利用 softmax 分类算法进二分类,筛除背景区域。第二条是回归分支,用以获取检测对象的位置信息。主要包括候选框的中心坐标及长度、宽度信息,从而可对候选框位置及尺寸进行初步确定。经过上述操作,目标所在区域初步被筛选出来。
区别:
1.使用的特征提取网络为VGG16。
2.没有使用选择性搜索方法来生成候选框,用RPN网络进行代替。
四.总结
上述对第二阶段RCNN的算法进行了总计,没有对网络进行讲解,但用最朴素的话对这三个网络进行了总结,期望大家都有收获。