Fast R-CNN
流程步骤:
- 一张图像生成1K~2K个候选区域(使用Selective Search方法)
- 将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图上获得相应的特征矩阵
- 将每个特征矩阵通过ROI(Region of Interest:感兴趣区域) pooling层缩放到7x7大小的特征图,接着将特征图展平经过一系列全连接层得到预测结果。
与R-CNN区别
- R-CNN依次将候选区域传入卷积神经网络得到特征(比如说有两千个候选框,那么我们就要传2000次)
- Fast-RCNN将整张图像送入网络,紧接着从特征图像上提取相应的候选区域。并且这些候选区域的特征不需要再重复计算
数据采样
- 正样本(候选框与真实的目标框的IOU>0.5)
- 负样本(0.1<IOU<0.5)
ROI Pooling Layer
得到训练样本之后,通过ROI polling层将图像尺寸缩放到一个统一尺寸
如何实现?
得到特征图后,通过ROI将图像划分为7x7的49个小区域,并且将每个小区域都进行最大池化下采样,这样有个好处就是我们不用再像RCNN那样必须限制图像的输入尺寸(227x227),因为最后图像都会变成7x7。
分类器
用softmax分类器
输出N+1个类别的概率(N为检测目标的种类,1为背景)共N+1个节点
所以在传入softmax分类器之前,FC层要提供N+1个节点
边界框回归器
输出对应N+1个类别的候选边界框回归参数( d x d_x d