[论文阅读] Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

[论文地址] [代码] [CVPR 14]

Abstract

在过去的几年里,在典型的PASCAL VOC数据集上测量的目标检测性能已经趋于平稳。表现最好的方法是复杂的组合系统,通常将多个低层次的图像特征与高层次的背景相结合。在本文中,我们提出了一种简单的、可扩展的检测算法,相对于VOC 2012的最佳结果,该算法的平均精度(mAP)提高了30%以上–达到了53.3%的mAP。我们的方法结合了两个关键的见解:(1)我们可以将大容量的卷积神经网络(CNN)应用于自下而上的区域建议(Region Proposal),以便对物体进行定位和分割;(2)当标记的训练数据不足时,对一个辅助任务进行监督性的预训练,然后再进行特定领域的微调,可以产生显著的性能提升。由于我们将区域建议与CNN结合起来,我们将我们的方法称为R-CNN。我们还提出了一些实验,这些实验提供了对网络学习内容的洞察力,揭示了丰富的图像特征层次结构。

Method

本文为大名鼎鼎的R-CNN,其中的R表示Region Proposal,。按照现在的分类方法,本文算是一种两阶段的Anchor Based方法,流程如下所示:
在这里插入图片描述

  • Step1: Region Proposal,即候选区域,可以认为就是一个框,框内包含我们感兴趣类别的物品。文中使用了Selective Search算法,每个图像能得到2k~3k个候选框。
  • Step2: 由于框内可能包含我们感兴趣的对象,那么现在实际上就成了一个分类问题,判断这个框的类别即可。因此,将框内图像resize成CNN能够接受的输入尺寸(如224x224),并送入CNN进行特征提取。
  • Step3: 将提取得到的特征送入SVM进行分类,判断其类别。注意,由于SVM只是个二分类器,所以有多少种可能的类就要把单个特征送入多少个不同的SVM。
Pros

本文亮点如下:

  • 利用深度学习模型来提取特征,性能相比传统的手工特征实现了飞跃。
  • 引入了finetune思想,通过在图像分类任务上的ILSVRC数据集上预训练得到丰富表征,再在相对较小的目标检测数据集VOC上finetune。
Cons

本文不足如下:

  • 慢。时间主要花在Selective Search生成候选框,以及SVM分类上,并且特征是要存在磁盘上的(占地方)。因此后续才陆续有了Fast R-CNN与Faster R-CNN。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值