深度学习 + 论文详解: Fast R-CNN 原理与优势

论文链接

p.s. 鉴于斯坦福大学公开课里面模糊的 R-CNN 描述,这边决定精读对应的论文并把心得和摘要记录于此。


前言

在机器视觉领域的物体识别分支中,有两个主要的两大难题需要解决:

  1. 目标图片里面含了几种“物体”,几个“物体”?
  2. 该些物体分别坐落于图片的哪个位置?

而 R-CNN 的发明就是用来解决第二个问题的工具,第一个问题不属于这里的讨论范围,故略过。R-CNN 如果去除时间和计算能力的因素不看,是一个挺好的物体位置定位方法,可以根据那些被估测出可能包含目标物体的画面,精确标定像素格边框的位置,但是现实上最初阶的 R-CNN 方法占用了大把的时间和计算资源,是无法在视频中实时检测物体位置的,原因如下:

  • Multi-stage pipeline(多个互相独立的通道)
    ... more ...
  • Slow training and detecting time
    ... more ...

而新的方法肯定必须围绕着上面几个问题去做修正,并且使用改进过的方法后,已经可以初步的应用在实时视频检测的场景中。至于改进的方法在 fast R-CNN 确立之前还有一个过度的方法:SPPnets(Spatial Pyramid Pooling networks)。


SPPnets


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值