R-CNN解读

本论文题目是《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译后是针对高准确度的目标检测与语义分割的多特征层级。

因为在规范的PASCAL VOC数据集上测量的目标检测性能在过去几年达瓶颈,该文提出了一种简单且可扩展的检测算法R-CNN。

论文贡献:

1.与先前VOC 2012上最佳结果相比,mAP提高了30%以上,达到了53.3%的mAP。

2.训练了一个高表达能力的卷积神经网络(CNNs),其提供了自底向上的候选框特征,用其进行定位和语义分割。

3.在VOC的目标检测数据集上数据较少,现在ImageNet这个大规模辅助系统上预训练一个模型,再把它拿到指定任务上微调,这样在小数据集上也能达到很好的性能。

创新点:

1.训练了一个高表达能力的卷积神经网络(CNNs),其提供了自底向上的候选框特征,用其进行定位和语义分割。

2.当带标签的训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务微调,可以使性能提升。

R-CNN方法:

1.获取输入图像。2.提取大约2000个自下而上的区域建议。3.使用大型卷积神经网络CNN计算每个建议的特征。4.使用特定于类的线性支持向量机对每个区域分类。

利用R-CNN进行目标检测:

1.模型设计:1.提取候选框。2.特征提取:从每个区域建议中提取4096维特征向量,特征是通过将一个平均减去227*227的RGB图像通过五个卷积层和两个完全连接的层向前传播计算。

为了计算候选框的特征,我们必须首先将该区域的图像数据转换为与CNN兼容的形式(其架构需要固定的227×227像素大小的输入)。在任意形状区域的许多可能变换中,我们选择最简单的。无论候选区域的大小或长宽比如何,我们都会将其周围紧边界框中的所有像素扭曲到所需的大小。在扭曲之前,我们扩展紧边界框,以便在扭曲大小下,原始框周围正好有p个扭曲图像上下文像素(我们使用p=16)。

2.测试时间检测:在测试时,我们对测试图像进行选择性搜索,以提取大约2000个候选框(我们在所有实验中使用选择性搜索的“快速模式”)。我们对每个候选框进行变形,并在CNN中作为输入,以便读取所需图层的特征。然后,对于每个类我们训练一个专门的SVM对每个提取的特征向量进行评分。给定一幅图像中的所有评分区域,我们应用贪婪的非最大值抑制(独立地针对每一类),如果某个区域与大于学习阈值的评分较高的选定区域存在联合交集(IoU)重叠,则剔除该区域。

3.训练:1.有监督的预培训。2.特定领域的微调。3.对象类别分类器。

可视化学习特征

卷积层第一层可以直接可视化,且易于理解,它们捕捉定向边缘和颜色特征。其他层作者思路是从网络中挑一个特定的单元将其当作一个物体探测器来使用,把所有1000万个候选框输入找到能使某次卷积,单个神经元产生最大激活。

消融对照试验

1.逐层性能,无需微调:CNN大部分代表性力量来自其卷积层,而不是全连接层。这一发现表明,仅使用CNN卷积层就可以计算任意大小图像的密集特征图。

2.性能逐层调整,使用微调:表明从ImageNet学习到的pool5功能是通用的,大多数改进都是通过学习特定领域的非线性分类器获得。

3.与最近的特征学习方法比较:所有R-CNN变体的性能都明显优于三个DPM基线,包括使用功能学习的两个。

预测框回归:

在误差分析的基础上,实现了一种简单方法减少定位误差:训练一个线性回归模型,以预测一个新框,给出了选择性搜索区域建议的Pool5特征(这个模型输入是Pool5特征,输出是偏移量)

语义分割:第一种策略(full)忽略区域的形状,直接在变形的窗口上计算CNN特征,就像我们在检测时所做的那样。然而,这些特征忽略了区域的非矩形形状。两个区域可能有非常相似的边界框,但几乎没有重叠。第二种策略(fg)只计算区域前景上的CNN特征。我们把背景替换成图像均值,这样在平均减法后背景区域为零。第三种策略(full+fg)简单地将full和fg功能连接起来;我们的实验验证了它们的互补性。

结论

目标检测性能停滞不前,该文提出一种很简单且可扩展的目标检测算法,与PASCAL VOC 2012上的最佳结果相比,该算法相对提高了30%。

我认为由于一张图片选择性搜索算法得到的约2000个推荐区域可能出现大量重复区域,产生大量重复运算,会使整个测试过程很复杂。

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值