使用VGG16作为网络的backbone,训练速度比R-CNN快了9倍,测试速度快了213倍,并且在PASCAL VOC 2012上实现了更高的map;
与SPP Net相比,Fast R-CNN训练速度快了3倍,测试速度快了10倍,并且准确率更高;
——单阶段训练算法----分类与边框回归的loss合并,梯度回传
算法流程
输入——图像和对应的region proposal
一张图像生成1k~2k个候选区域region proposal(使用Selective Search方法)
将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图获得相应的特征矩阵
将每个特征矩阵通过ROI pooling(Region of Interest)层缩放到7×7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果
图像归一化为224×224直接送入网络。
前五阶段是基础的conv+relu+pooling形式,在第五阶段结尾,输入P个候选区域(图像序号×1+几何位置×4,序号用于训练)?
一次性计算整张图像特征 (不限制输入图像的尺寸)
R-CNN依次将候选区域输入卷积神经网络得到特征。
Fast R-CNN将整张图像送入网络,紧接着从特征图像上提取相应的候选区域。这些候选区域 的特征不