- arxiv: http://arxiv.org/abs/1504.08083
- github:https://github.com/rbgirshick/fast-rcnn
- github:https://github.com/zplizzi/tensorflow-fast-rcnn
- github:https://github.com/mahyarnajibi/fast-rcnn-torch
- github(“Fast R-CNN in MXNet”): https://github.com/precedenceguo/mx-rcnn
1、整体思路
- 将整张图片输入卷积网络得到特征图
- 在原图中获取1000-2000个候选框
- 将候选框映射到特征图获取每张候选框对应的特征区域
- 将特征区域传入ROI池化层获得固定长度的特征向量
- 通过两个全连接层生成ROI feature vector
- 对ROI feature vector进行分类和回归
2、具体流程
3、创新点
- 卷积不再是对每一个region proposal,而是对整个图像处理,避免了RCNN中的很多重复计算
- ROIPooling的提出,避免了对提取的region proposals进行缩放,并且RoIPooling是可导的,使整个网络可以实现end-to-end learning
- 把bbox regression放进了神经网络内部,与region分类合并成为一个multi-task模型,共享卷积特征,相互促进
4、不足
- region proposal的提取仍然采用selective search,整个检测时间大多消耗在上面
5、加入我们