目标检测技术的演变:R-CNN -> Fast R-CNN -> Faster R-CNN

站在阳台向北望

于 2018-03-18 17:08:57 发布

阅读量511

点赞数 1

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w516162189/article/details/79599821

版权

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先应该明确两个概念: 目标识别 和 目标检测

目标识别是指识别图片中物体的类别.
目标检测是指不仅要识别图片中物体的类别, 而且还要使用 Bounding Box 标出物体的位置.
目标检测 = 目标识别 + 定位

经典目标检测方法

基于回归的思想
将 Bounding Box 的四个参数(x.y,width,height) 作为网络的预测结果, 和真实的参数做损失. 网络使用 L2 损失函数.
基于滑动窗口的思想
基于输入图像, 取不同的滑动窗口, 之后利用 CNN 获得不同窗口图片的评分, 以此找出评分最高的目标窗口. 简单粗暴.

R-CNN

根据 selective search 算法生成可能包含目标的候选区域, 也就是 region proposal. 生成的候选区域大小可能是不同的.
resize 不同大小的候选区至相同尺寸, 分别将生成的region proposal 放入 CNN 获取对应候选区的特征, 并缓存起来.
训练一个svm 二分类器, 用来判断缓存起来的特征是否是相应的目标类别. 每个类别对应一个svm .
最后用一个regression 修正器修正框的位置. (bbox regression)

缺点: 尽管使用选择性搜索算法, 但是候选区大小不一, 需要调整到统一大小, 这样会导致信息丢失; 此外, 由于候选区重叠，多个候选区都会重复计算卷积特征, 计算性能和效率下降很多. 最后, 各个过程是分开的.

SPP-Net

卷积/池化/激活等操作是不需要固定输入图像的 size 的, 所以可以共享前面的操作.

共享卷积计算。
采用空间金字塔池化（Spatial Pyramid Pooling）替换了全连接层之前的最后一个池化层
最关键的是spp的位置，它放在所有的卷积层之后，有效解决了卷积层的重复计算问题（测试速度提高了24~102倍）

缺点: 和RCNN一样，训练过程仍然是独立的。分类和回归仍然是分开的，中间结果(卷积特征)依旧需要大量转存，太麻烦。SPP-Net在无法同时调整在SPP-Layer两边的卷积层和全连接层，很大程度上限制了深度CNN 的效果；

Fast R-CNN

使用金字塔池化思想实现多尺度输入, 只使用一层金字塔池化, 最后生成的时固定大小的特征图.
只对原图提取一次卷积特征, 共享卷积操作.
目标分类和 bbox regression 都放到网络中, 构成 multi-task 模型.
Softmax Loss 代替 svm，SmoothL1Loss取代Bouding box回归
全连接层通过SVD(奇异值分解)加速

缺点 就是候选区域的生成是基于选择性搜索算法的, 这个过程又也是非常耗时的.

Faster R-CNN

加入一个提取边缘的神经网络，也就说找到候选框的工作也交给神经网络来做了. 做这样的任务的神经网络叫做Region Proposal Network(RPN)

YOLO

SSD

总结

整理自:
https://www.cnblogs.com/skyfsm/p/6806246.html
http://blog.csdn.net/linolzhang/article/details/54344350

站在阳台向北望

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。