Two-Stage目标检测方法改进历史

Two-Stage目标检测方法改进历史

滑动窗口

用不同大小不同形状的窗口,使用不同的滑动距离,从左到右从上到下获得预选图像块。将预选图像块变形的到固定大小的图像块。将这些图像块送入卷积神经网络得到4096个特征值。然后通过SVM判别类别,通过线性回归得到目标框的坐标。

Selective Search

为了提高检测器的速度,一个很显而易见的方法就是减少图像块的数量。我们使用region proposal方法去得到ROIs,而不是简单直接的使用所有的滑动窗口。在SS方法中,我们将图像的每一个像素当成一个组。然后,计算每个组之间的“语义距离?”,通过不断合并得到一些语义块。在合并的时候,通过优先合并两个小的组而不是一个大组和一个小组来避免单个大组不断吞并小组。在合并组的同时得到ROIs。

R-CNN

R-CNN使用region proposal方法得到大约2000个ROIs。将这些ROIs变形的到固定大小的图像逐个送入卷积神经网络。然后通过全连接层去辨别分类,通过另一个全连接层去改善ROI的坐标来得到边界框。

因为使用了更少且更高质量的ROIs,R-CNN比滑动窗口运行的更快且准确率更高。

Fast R-CNN

R-CNN慢在了训练和检测。2000个proposals,每一个都经过CNN处理,相当于重复特征提取过程2000次。与其从每一个ROI上提取特征,我们不如先从整个图像上提取一次特征得到feature map。我们仍然使用额外的像SS这样的region proposal方法。这一次得到的ROI是后来作用于feature map上的,而不是之前的图像。使用ROI pooling得到固定大小的feature map块,同样送入全连接层得到类别和边界框。

提取一次特征比提取两千次特征明显有巨大的速度提升。Fast R-CNN使用多任务损失函数进行端到端的训练,这提升了准确度。

Faster R-CNN

Fast R-CNN使用额外的region proposal方法获得ROI。然而这些方法的运行速度很慢。不同于Fast R-CNN,Faster R-CNN使用内部的region proposal network (RPN)从feature map上获得ROI。通过使用速度很快的RPN而不是region proposal方法,Faster R-CNN再一次提升了速度。

RPN

RPN通过滑动多个3x3的卷积核经过一系列卷积来得到256个值,通过两个全连接层来判断这个格子是否含有目标,和边界框的坐标修正值。

原文链接:

https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值