RCNN
第一步 采用SS算法生成1000—2000个候选框
第二步 对每个候选框缩放到227x227 然后输入到训练好的CNN网络中,获得4096维特征向量,得到2000X4096特征矩阵
第三步 将特征送入每一维的 SVM分类器中,判别是不是属于该类
输入 2000X4096 SVM分类器的权值矩阵 4096X20 输出得 2000X20
利用非极大值抑制对2000X20的每一列进行,选出得分最高的边界框
第四步 使用回归器对分类框进行修正
缺点
Faster RCNN
Fast RCNN 与RCNN区别
训练样本区分正样本和负样本,在训练过程中并不是采取SS算法提取的候选框,而是随机选取一部分候选框进行训练。
ROI Pooling
ROI Pooling 将输入图像统一缩放到7X7大小
图片进入网络中提取特征,在特征图上提取相应的候选框,再结果Rol Pooling 层将特征图缩放到7X7统一的大小,再展平处理,经过两个并联的全连接层,其中一个用于目标概率的预测,一个用于边界框回归参数的预测
每个类别具有四个边界框回归参数,第二个全连接层的参数为(N+1)X4
通过边界框回归器调整候选边界框的回归参数,将黄色的框调整到红色的框,绿色框是真正的边界框。
当u=1 时,代表候选框框住的是正样本,需要计算边界框回归参数
当u= 0时,代表候选框框住的是背景,为负样本,不需要计算边界框回归参数