论文笔记《Rich Feature Hierarchies for accurate object detection and semantic segmentation》

RCNN是CNN应用在object detection的开山之作,加上后续的Fast-RCNN,Faster-RCNN都是非常经典的工作,这三篇文章一环套一环的改进思路简直是快准狠(跪拜rbg大牛><)。笔者不是做检测的(所以没有折腾过代码不清楚实验细节),在paper reading听了别人报告之后很喜欢RCNN系列文章,就记录下对原理的理解和感悟吧。

1 论文信息

发表会议:CVPR2014
代码

2 Motivation

就像论文开头所说,“Features matter”,描述力强的特征对目标检测任务来说十分有必要,考虑将CNN强大的表示能力用于目标检测中,就是考虑“fill the gap between image classification and object detection”,而对于一个目标来说,要判断它是哪个目标,实质上是一个分类问题。

3 Method

3.1 简介

RCNN是pipeline approach,主要流程是,获取proposal(selective search)–> 提特征(CNN)–> 得到每个proposal的得分(SVM)–> 目标定位(bounding box regression),如下图:

RCNN Frame

3.2 细节记录

这一步得到2k左右个proposal。

3.2.2 Extract CNN features

  1. 上一步的proposal直接忽视长宽比,把warped region输入CNN网络
  2. 这里finetune CNN时,用和groud truth的IoU overlap>0.5的proposal作为该类的正例样本,其余的都是反例样本,而因为正例太少,所以实验中固定正反例样本比例为1:3

3.2.3 Compute score

  1. 为每个类训练SVM,这样每个框都会得到对应于每个类的score
  2. 训练SVM时,用ground truth作为正例样本,和ground truth的IoU overlap<0.3的作为反例样本

3.2.4 bounding box regression

  1. 取和ground truth的IoU overlap>0.6的proposal用于训练回归模型
  2. 用proposal 的的pool5特征 Φ5(Pi) 学习一个 w=argminwNi(tiwTΦ5(Pi))2+λ||w||2 , 其中 P1 是4维向量,代表第i个proposal的左上角点坐标(x,y)和proposal的(width, height).
  3. 根据w计算一个对于位置的变换 d(P)=wTΦ5(P) , 其中d就是代表proposal和对应的ground truth之间的变换。

4 Experiment

本文中实验占了较大篇幅,对于细节问题的探讨也很值得学习。

4.1 怎么warp

即如何把大小不一的region proposal统一到CNN要求的输入大小,作者尝试多种方案后决定直接忽略长宽比做resize。

4.2 正反例的定义

可以看到在finetune CNN时和训练SVM时,对于正反例的定义是不一样的,作者应该做了大量实验去找overlap的合适取值。相对而言对SVM的正反例定义要严格些,因为它得出的score要拿出来分类,而CNN只是提特征,且CNN训练需要较多的数据。

4.3 softmax还是SVM

CNN本身就是分类网络,其中softmax分类器的输出可以作为proposal的score,一方面是实验结果显示用SVM效果好,另一方面,由于finetune CNN用的正反例不是真实的正反例,只是一种近似。

4.4 CNN为什么rich

在论文的Fig6中,对比了CNN对于多种object特性(截断,视角,长宽比等)的敏感度(越不敏感说明泛化能力越好)。

5 Summary

CNN这种rich feature确实提升了目标检测的性能,当前RCNN的需要改进的地方有:

  1. 较复杂的pipeline
  2. 对一张图的proposal分别提取CNN,因为大量proposal互相重复导致对图片的区域进行多次计算。
  3. warp使region失真

后续的Fast、Faster RCNN也都主要是根据以上几点改进模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值