论文精读-目标检测

Deep Learning for Feneric Object Detection: A Survey

1、基于区域的两阶段框架(Two Stage)

  • RCNN

    Girshick 将AlexNet以及候选区域选择性搜索(selective search)集成到一起,训练出了RCNN框架,具体步骤如下:

    (1)计算建议窗口:通过选择性搜索获得可能包含目标的候选区域(region proposal);

    (2)微调CNN模型:从图像中裁剪并变形成相同大小的候选区域,当做预训练的CNN(例如使用大型数据集ImageNet)模型的输入。在此阶段,所有IOU的候选区域被定义为改正确标注框类的正例,其余的定义为反例

    (3)训练特定类的SVM分类器:使用CNN提取的固定长度特征训练一组特定类的线性SVM分类器,取代了通过微调学习的softmax分类器。对于训练SVM分类器,将正样本定义为每个类的正确标注框。与类的所有正确标注框重叠小于0.3的候选区域对该类是否定的。

    (4)训练特定类的边界框(回归任务):针对每个具有CNN特征的目标类学习边界框回归

    • 缺点:

    (1)训练是个多阶段的流水任务,各阶段相互独立,训练缓慢且难以优化;

    (2)训练SVM和边界框回归器在时间和空间上代价太大,需要从每个图像的每个候选目标中提取CNN特征,这在大规模检测和深度网络中的代价是巨大的

    (3)测试速度很慢,每个测试图像都在根据候选目标独立的提取CNN特征,没有采用共享计算。

  • SPPNet
    在测试过程中,CNN特征提取是RCNN检测管道的主要瓶颈,这需要从每张图像的数千个扭曲候选区域中提取CNN特征。因此,SPPNet先对图像做一次卷积运算然后在特征图上提取特征,并且在卷积神经网络CNN之后增加了图像空间金字塔池化(Spatial Pyramid Pooling,SPP)的结构,这样就可以根据图像的特征将图像当中的目标区域进行分类。SPPNet和RCNN的区别如下图所示:
    在这里插入图片描述
    空间金字塔池化结构
    在这里插入图片描述
    空间金字塔池化层的结构如上所示,Image经过一次卷积之后会得到256个特征图,也就是上面图中最下面的一连串黑色堆叠图,这是整个卷积神经网络的第五层吗,因此称为conv5。然后我们使用SSP结构对这256个特征图进行处理,将这256张特征图分别进行11,22,44的最大池化,也就是分别选取这256个特征图当中的最大值,然后最后的输出也是256个每一层特征图的最大值。比如我们做空间金字塔池化最右边的那个1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值