Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(RCNN)

总揽
  • image-20210610231510096
  • 由上图可以看到,RCNN分为三个部分
    • 1、提取候选区域(region proposals),它采取的方式是Selective Search,选取大约2k个
    • 2、对候选区域进行直接resize,使之符合CNN网络的输入要求,然后,进入特征提取
    • 3、在分类阶段使用SVM分类器进行分类
Object detection with RCNN
model design
  • Region proposals
    • Selective Search
  • Feature Extraction
    • resize成227x227的RGB image(三通道),无视候选区的尺寸、比例(附录A对此有讨论)
    • 此外,在resize之前,还对候选区域进行拼接(扩张)
      • 在这里插入图片描述
test-time detection
  • 在测试阶段,仍然是上述流程,另外,作者特地强调了下RCNN的高效(就当时而言),主要有以下两点
    • CNN参数全局共享
    • 特征向量的计算是低维的(计算量小)
  • 最后输出的特征向量矩阵是2000x4096,SVM则是4096xN,其中N表示类别数目
training
  • 先把CNN扔到大号数据集里面训练(监督预训练,指ILSVRC2012)
  • 然后再在VOC中做主要特征微调
  • 然后使用SVM对每个区域的每类进行判断(分类)(附录B对此有讨论)
实验数据
  • 在VOC2010上的结果

    • RCNN BB是用了BB regression(框回归)的版本,可以看到mAP提了3个点
  • 而在ILSVR2013上,大体趋势依然不变

  • 然后对fine-tuning效果的测试(1-3):(4-6),7是6+用了BB regression的效果,顺手验证了BB regression的效果

    • image-20210611001515518
  • 不同backbone(CNN部分)的效果

    • image-20210611001744653
附录A:Object proposal transformations
  • 提供了两种方法:
    • 1、短边+padding然后再resize,这样可以解决ratio不协调问题
    • 2、暴力resize,也就是文中采用的方式(图简单?)
附录B:Positive vs. negative examples and softmax
  • 首先给出定义
    • 对于GT:positive if IOU>0.5 else background
    • 对于SVM:
      • if IOU>0.5 =>positive
      • if IOU<0.3 =>negetive
      • else 忽略
  • 由于正负样本的不平衡,作者引入many “jittered” examples,使得positive扩大30倍
附录C:Bounding-box regression
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椰子奶糖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值