Fast R-CNN

最新推荐文章于 2020-10-14 11:14:26 发布

枯木寒岩

最新推荐文章于 2020-10-14 11:14:26 发布

阅读量486

点赞数

分类专栏： R-CNN系列文章标签： R-CNN SPP-Net Fast-R-CNN

本文链接：https://blog.csdn.net/human_recognition/article/details/52074978

版权

Fast R-CNN是R-CNN和SPP-Net的改进版，通过多任务损失和单阶段训练提升检测率。它引入ROI Pooling层，允许所有网络层更新，并在训练时采用image-centric sampling，优化了softmax层和bounding box回归。Fast R-CNN解决了前两代模型的效率和存储问题，提高了检测速度和精度。

摘要由CSDN通过智能技术生成

摘要
比较R-CNN, SPP-Net, Fast R-CNN 使用”多任务损失” + “一个训练stage”. 多任务损失简化了学习,并提升了检测率.

Fast R-CNN修复了R-CNN和SPP-Net的缺陷. 存在下面的优点:
1. 相比于R-CNN, Fast R-CNN有更高的检测率。
2. 训练是 single stage，多任务loss
3. 在训练的过程中，所有的网络层都可以被更新
4. 不需要磁盘存储（SPP-Net网络需要存储大量的数据到硬盘）

Fast R-CNN训练
考虑一个预训练网络，包含几个卷积层、max pooling层、ROI pooling层和FC层。最后连接两个姊妹层：一个softmax层，输出k+1类的概率，另外一层输出4*k位置坐标。
这里写图片描述

1. ROI pooling layer
ROI pooling layer 是spatial pyramid pooling的简化版本。ROI pooling层的输入包括N个特征图和 R个ROI区域。
特征图的尺寸为: H*W*C
ROI表示为（n,r,c,h,w）,n表示特征图的序号，r，c是左上角坐标，h，w是ROI的width，height。
对于每个ROI，ROI pooling层使用max pooling产生固定尺寸W’*H’的output bin。

2. 使用预训练网络
作者使用三个预训练网络，在5至13