基于深度学习的目标检测技术的演进:从R-CNN到Faster R-CNN

导语


什么是Objection Detection?就是在给定的图片中精确的找到物体所在位置,并且标注出物体的类别。目标检测要解决的问题就是物体在哪里?是什么?这样的问题。然而,这个问题并不是那么容易解决的,物体尺寸变化范围很大,摆放物体的角度、姿态不固定,而且可以出现在图片的任何地方,更何况物体还可以是多种类别。


以本文中的图像识别任务为例,既要把图像中的物体识别出来,而且要用方框框选出它的位置。

640?wx_fmt=png

以上的任务用专业术语描述就是:图像识别+定位


图像识别(分类)


  1. 输入:图像

  2. 输出:物体的类别

  3. 评估方法:准确率


640?wx_fmt=jpeg

定位:


  1. 输入:图像

  2. 输出:方框在图像中的位置(x,y,w,h)

  3. 评估方法:检测评价函数intersection-over-union(IOU)


640?wx_fmt=png

卷积神经网络(CNN)已经帮助我们完成了图像识别的任务,我们只需要添加一些额外的功能来完成定位任务。这需要深度学习发挥它强大的作用。


在本文中,我们将从目标定位的角度讨论目标检测技术的发展,它的演进过程是这样的:R-CNN -> SppNET -> Fast R-CNN -> Faster R-CNN


在开始之前,让我们仔细的看一下R-CNN。


定位可以看做回归问题

如果看做是回归,我们需要预测出(x, y, w, h)四个参数的值,从而得到方框的位置。

640?wx_fmt=png

第1步:

    •先解决简单问题, 搭建一个识别图像的神经网络

    •在AlexNet VGG GoogleLenet上fine-tuning一下

640?wx_fmt=jpeg

第2步:

 •在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)

 •成为classification + regression模式

640?wx_fmt=png

第3步:

    •Regression部分用欧氏距离损失

    •使用SGD训练

第4步:
  •预测阶段把2个头部拼上
  •完成不同的功能


这里需要进行两次fine-tuning。第一次在ALexNet上做,第二次将头部改成

regression head,前面保持不变,做一次fine-tuning。


在哪里添加回归?

有两种处理方法:

  1. 加在最后一个卷积层后面(如VGG)

  2. 加在最后一个全连接层后面(如R-CNN)


回归问题太难了,需要想办法转换为分类问题。回归的训练参数收敛的时间要长的多,所以上面的网络采用了分类的网络计算出网络共同部分的连接权值。

获取图像窗口

  1. 还是刚才的分类+回归思路

  2. 取不同大小的框

  3. 让框出现在不同的位置,对框进行打分

  4. 取分数最高的那个框

640?wx_fmt=jpeg

左上角的黑框:0.5分

右上角的黑框:0.75分

左下角的黑框:0.6

右下角的黑框:0.8


根据分数的高低,我们选择右下角的黑框作为目标位置的预测。


注意:有时候也会选择得分最高的两个框,然后取两个框的交集作为最终的位置预测。


疑问:框要取多大?

非常简单粗暴的取不同的框,依次从左上角扫到右下角。


总结一下思路:

对于第一张图,使用各种尺寸的框(遍历整个图像)截取图像,输入到CNN。然后,CNN会输出这个框的分类,然后输出框中图像的x,y,w,h(回归)。

640?wx_fmt=jpeg

这个方法实在太耗时,对它进行优化。原来的网络是这样的:

640?wx_fmt=jpeg

优化为这样:把全连接层改为卷积层,这样可以提高速度。

640?wx_fmt=jpeg

目标检测


当图像中有多个目标该怎么办呢?难度增加了很多。如此以来,任务就变成了:多目标识别+多目标定位。

那么,把这个任务看做分类问题?

640?wx_fmt=jpeg

看做分类问题有何不妥呢?

  1. 你需要找很多位置,给很多个不同大小的框

  2. 还需要对框内的图像分类

  3. 当然,如果你的GPU很强大,那加油吧


看做分类问题有没有办法优化呢?我们并不想尝试那么多框和那么多位置。当然,还是有好的解决办法的。


先找出可能含有目标的框(即候选框,比如选1,000个候选框),这些框之间是可以相互重叠相互包含的,这样我们就可以避免暴力枚举所有框了。

640?wx_fmt=jpeg

很多大牛们发明了很多选定候选框的方法,如EdgeBoxes和Selective Search。一下是各种选定候选框的方法的性能对比。

640?wx_fmt=jpeg

有一个疑问,提取候选框用到的算法“Selective Search”是如何选出这些候选框的呢?

从R-CNN到Faster R-CNN的进化

横空出世的R-CNN



基于以上思路,R-CNN出现了。

640?wx_fmt=png

第1步:训练(或下载)一个分类模型(如AlexNet)

640?wx_fmt=jpeg

第2步:对该模型做fine-tuning

  1. 将分类数从1,000改为20

  2. 去掉最后一个全连接层

640?wx_fmt=png

第3步:特征提取

  1. 提取图像的所有候选框(Selective Search)

  2. 对于每一个区域:修正区域大小以适合CNN的输入,做一次前向运算,将第五个池化层的输出(即对候选框提取到的特征)存到硬盘

640?wx_fmt=png

第4步:

  1. 训练一个SVN分类器(二分类)判断这个候选框里的物体类别

  2. 每个类别对应一个SVM,判断是否属于该类别,是:positive,否Lnagative。如下图就是狗分类的SVM

640?wx_fmt=png

第5步:

使用回归器精细的修正候选框位置。对于每一个类,训练一个线性回归模型判定该框是否框选的完美。

640?wx_fmt=png

R-CNN的进化中Spp Net的思想对其贡献非常大,这里简单的介绍一下Spp Net。

SPP Net


SPP是Spatial Pyramid Poolong它的特点有以下两个:

  1. 结合SPP方法实现CNNs的尺度输入

    一般CNN后接全连接层或分类器,他们都需要固定的输入尺寸,因此不得不对输入数据进行裁剪或扭曲,这些预处理会造成数据的丢失或几何的失真。SPP Net的第一个贡献是将SPP的思想加入到CNN,实现了数据的多尺度输入。


如下图所示,在卷积层和全连接层之间加入SPP layer。此时网络的输入可以是任意尺度的,在SPP layer中每个池的过滤器将根据输入调整大小,而SPP的输出尺度始终是固定的。

640?wx_fmt=jpeg

2. 只对原图提取一次卷积特征

在R-CNN中,每个候选框先重置到同样大小,然后分别作为CNN的输入,这样效率很低。


因此SPP Net根据这个缺点做了优化:只对原图进行一次卷积得到整张图的特征映射,然后找到每个候选框zaifeature上的映射补丁,将此补丁作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大朗的计算时间,比R-CNN提速100倍。

640?wx_fmt=jpeg

Fast R-CNN


SPP Net真是个好方法。R-CNN的进阶版Fast R-CNN就是在R-CNN的基础上采纳SPP Net方法,对R-CNN作了改进,使得性能进一步提高。


R-CNN和Fast R-CNN的区别有哪些呢?

先说R-CNN的缺点:即使使用了selective search等预处理步骤来提取潜在的bounding box作为输入,但是R-CNN仍会有严重的速度瓶颈,原因很明显,就是计算机对所有区域进行特征提取时会重复计算,Fast R-CNN正是为了解决这个问题而诞生的。

640?wx_fmt=png

有人提出了一个可以看做单层SPP Net的网络层,叫做ROI Pooling,这个网络层可以把不同大小的输入映射到一个固定尺度的特征向量,而我们知道,conv、pooling、relu等操作都不需要固定尺寸的输入,因此,在原始图像上执行这些操作后,虽然输入图像的尺寸不同导致得到的特征映射尺寸也不同,不能直接接到一个全连接层进行分类,但是可以加入这个神奇的ROI Pooling层,对每个区域都提取一个固定维度的特征表示,再通过正常的softmax进行类型识别。


另外,之前R-CNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox回归,而在Fast R-CNN中,巧妙的将bbox回归放进了神经网络内部,与区域分类和并成为一个multi-task模型,实际实验也证明,这两个任务能够共享卷积特征,并相互促进。


Fast R-CNN很重要的一个贡献是成功的让人们看到了Region Proposal+CNN这一框架实时检测的希望,原来多类检测真的可以在保证准确率的同时提升速度,也为后来的Fast R-CNN做了铺垫。


总结一下Fast R-CNN:

  1. R-CNN有一些相当大的缺点(把这些缺点都改掉后,就成了Fast R-CNN)

  2. 大缺点:由于每一个候选框都要独自经过CNN,这使得花费的时间非常多

  3. 小缺陷:在共享卷积层中,并非每一个候选框都作为输入进入CNN。相反,它作为完整的图片输入,然后在第五个卷积层再得到每个候选框的特征。

  4. 原始方法:许多候选框(如两千个)->CNN->获取每个候选框的特征->分类+回归

  5. 现在的方法:完整图片->CNN->获取每个候选框的特征->分类+回归

这样就很容易理解为什么Fast R-CNN比R-CNN快的多。不过不像R-CNN把每个候选区域给深度网络提特征,而是整张图提一次特征,再把候选框映射到conv5上,而SPP只需要计算一次特征,剩下的只需要在conv5层操作就可以了。

性能方面的改进也很明显:

640?wx_fmt=png

Faster R-CNN


毫无疑问,Fast R-CNN作为传统的CNN带来重大改进。然而,Fast R-CNN的一个主要问题是它使用selective search查找所有的后选框,这样非常耗时。


有什么更有效的方法来找到这些候选框呢?

解决方案:添加一个提取边缘的神经网络。也就是说,使用神经网络来查找后选框。执行此类任务的神经网络成为Region Proposal Network(RPN)。


具体的实现:

  1. 将RPN放在最后一个卷积层后面

  2. RPN直接训练以后的候选区域

640?wx_fmt=png

RPN简介:

  1. 在特征映射上滑动窗口

  2. 构建一个神经网络用于物体分类+框位置的回归

  3. 滑动窗口的位置提供物体的大体位置信息

  4. 框的回归提供了更精确的位置

640?wx_fmt=png

一个具有四个损失函数的网络:

  •RPN calssification(anchor good.bad)
  •RPN regression(anchor->propoasal)
  •Fast R-CNN classification(over classes)

  •Fast R-CNN regression(proposal ->box)

640?wx_fmt=png

速度对比:

640?wx_fmt=png

Faster R-CNN的主要优点是它设计了一个网络RPN提取候选区域,而不是在selective search上浪费时间,这明显的加速了检测。

结论


RCNN

1.在图像中确定约1000-2000个候选框 (使用选择性搜索)
2. 每个候选框内图像块缩放至相同大小,并输入到CNN内进行特征提取 
3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
4.对于属于某一特征的候选框,用回归器进一步调整其位置


Fast RCNN
1.在图像中确定约1000-2000个候选框 (使用选择性搜索)
2.对整张图片输进CNN,得到feature map
3.找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层
4.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
5.对于属于某一特征的候选框,用回归器进一步调整其位置


Faster RCNN
1.对整张图片输进CNN,得到feature map
2.卷积特征输入到RPN,得到候选框的特征信息
3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
4.对于属于某一特征的候选框,用回归器进一步调整其位置

 

总的来说,从R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走来,基于深度学习目标检测的流程变得越来越精简,精度越来越高,速度也越来越快。可以说基于region proposal的R-CNN系列目标检测方法是当前目标检测技术领域最主要的一个分支。


640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值