R-CNN(CVPR2014)



论文链接
源代码

Abstract

在经典PASCAL VOC数据集上测量的对象检测性能在过去几年中趋于稳定,表现最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文相结合。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前在VOC 2012上的最佳结果提高了30%以上的平均精度(mAP),达到53.3%的amAP。我们的方法结合了两个关键的见解:
(1)人们可以将高容量卷积神经网络(cnn)应用于自下而上的区域生成,以定位和分割对象;
(2)当标记训练数据稀缺时,对辅助任务进行监督预训练,然后进行特定领域的微调,可以显著提高性能
证明了简单的边界盒回归方法可以有效地减少错误定位,而错误定位是主要的误差模式
由于我们将区域建议与CNN结合在一起,我们称我们的方法为R-CNN:具有CNN特征的区域,我们还将R-CNN与OverFeat进行了比较,OverFeat是最近提出的基于类似CNN架构的滑动窗口检测器。我们发现,在200类ILSVRC2013检测数据集上,R-CNN的性能大大优于OverFeat

Introduction

这篇论文首次表明,与基于更简单的hog特征的系统相比,CNN可以在PASCAL VOC上显著提高目标检测性能
为了实现这一结果,我们专注于两个问题:用深度网络定位目标和只用少量带注释的检测数据训练高容量模型
我们通过在“使用区域识别”范式中运行来解决****CNN定位问题,该范式在目标检测和语义分割方面都取得了成功
我们使用一种简单的技术(仿射图像扭曲)从每个区域建议中计算固定大小的CNN输入,而不考虑区域的形状

(1)获取输入图像,(2)提取大约2000个自下而上的区域候选框,(3)使用大型卷积神经网络(CNN)计算每个建议的特征,然后(4)使用特定类别的线性支持向量机对每个区域进行分类
检测面临的第二个挑战是标记数据稀缺,目前可用的数量不足以训练大型CNN
本文的第二个主要贡献是表明,在大辅助数据集(ILSVRC)上进行监督预训练,然后在小数据集(PASCAL)上进行特定领域的微调,是在数据稀缺时学习高容量cnn的有效范例
我们证明了简单的边界盒回归方法可以有效地减少错误定位,而错误定位是主要的误差模式

Object detection with R-CNN

Module design

我们的目标检测系统由三个模块组成。
第一个生成与类别无关的区域候选框,这些候选框定义了我们的检测器可用的候选检测集。
第二个模块是一个大型的卷积神经网络,从每个区域提取固定长度的特征向量。
第三个模块是一组特定于类的线性支持向量机

Test-time detection

在测试时,我们对测试图像进行选择性搜索以提取大约2000个区域建议(我们在所有实验中都使用选择性搜索的“快速模式”)。
我们warp每个候选框,并通过CNN向前传播,以计算特征。
然后,对于每个类,我们使用为该类训练的支持向量机对每个提取的特征向量进行评分。
给定图像中所有评分区域,我们应用贪婪非最大抑制(独立于每个类),如果该区域与大于1的较高评分区域有交集-过并(IoU)重叠,则拒绝该区域

Visualization, ablation, and modes of error


R-CNN与UVA和Regionlets最直接的可比性,因为所有方法都使用选择性搜索区域建议


Semantic segmentation


Conclusion

我们最后指出,通过使用计算机视觉和深度学习的经典工具(自下而上的区域建议和卷积神经网络)的组合,我们取得了这些结果,这一点很重要。这两者并不是对立的科学探索路线,而是自然而不可避免的合作伙伴

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值