bsp模型适用于图计算_【论文解读】目标检测之RFBnet模型

本文提出了一种名为感受野模块(RFB)的新颖网络组件,旨在增强轻量级CNN网络的深层特征,以实现快速且准确的目标检测。受到人类视觉系统中感受野(RF)结构的启发,RFB模块通过模拟RF的大小和偏心率关系,提高了特征的可辨性和模型的鲁棒性。在保留实时处理速度的同时,RFB Net在Pascal VOC和MS COCO数据集上实现了与更深层神经网络模型相媲美的高性能,证明了RFB的有效性。
摘要由CSDN通过智能技术生成

e9a07d108f0d6c89f4d7f0c02219a113.png

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

  • 书的购买链接
  • 书的勘误,优化,源代码资源

PDF 全文下载:论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

解读论文:Receptive Field Block Net for Accurate and Fast Object Detection

ECCV 2018

随着深度神经网络的发展,目前性能最佳的目标检测模型都依赖于深度的CNN主干网,如ResNet-101和Inception,虽然强大的特征表示有利于性能的提升,但却带来高额的计算成本。相反的,一些轻量级的检测模型可以实时的处理检测问题,但随之带来的是精度的牺牲。在这篇论文文中,作者探索了一种替代方案,通过使用人工设计的网络模块(hand-crafted mechanism)强化轻量级特征来构建快速准确的检测模型。受人类视觉系统中感受野(RF)结构的启发,作者提出了一种新颖的RF模块(RFB),它通过模拟RF的大小和偏心率之间的关系增强了特征的可辨性和模型的鲁棒性。作者进一步将RFB组装到SSD的顶部,构建RFB检测模型。为了评估其有效性,作者在两个主要基准数据集上进行了实验,结果表明RFB Net能够在保持实时速度的同时达到与拥有较深主干网的检测模型同级别的性能。

一. 概述

近年来,基于区域(Region-baesd)的卷积神经网络(R-CNN)及其衍生网络(如Fast R-CNN和Faster R-CN等)在Pascal VOC,MS COCO和ILSVRC等主要的比赛和基准测试中不断提升着目标检测的最高性能。这一类检测模型将整个网络划分为两个阶段并构建了一种特有的流水线(pipeline)结构,其中第一阶段是对图像内各类别目标的所有可能位置进行候选框粗略估计(region proposal),第二阶段使用基于CNN的特征提取器及分类器对每个估计进行分类和校准。通常认为在这些方法中,CNN构建的特征表示起着至关重要的作用.通过CNN学习的特征是一种对于目标的编码,这种编码通常拥有较高的区分度和良好的鲁棒性。很多最新的研究都证实了CNN在目标检测中的重要作用, 例如,ResNet和DenseNet使用越来越深的网络提取图像特征; FPN引入了一种自上而下的架构来构建特征金字塔, 从而集成了浅层和高层语义信息; 最新的Mask R-CNN使用RoIAlign层以产生更精确的区域特征。所有的这些网络都通过改进特征提取的方法来获得更优的结果. 但是由于它们都没有跳出使用更深层神经网络的定势思维,因而结论便是计算成本的不断累加和检测速率的减低。

为了加快检测速度,单阶段(one-stage)检测框架被提出并广泛使用. 其与two-stage检测模型的不同点在于one-stage模型舍弃候选区域生成(Region proposal)的阶段。虽然YOLO和SSD的实验结果证明了one-stage模型可以做到实时的目标检测,但它们与最新的two-stage检测模型相比精度却有着10%到40%的下降。尽管最新的Deconvolutional SSD(DSSD)和RetinaNet大大改善了one-stage模型的精度,使其几乎可以和two-stage检测模型媲美,但不幸的是它们性能的提升也来源于对更深层神经网络的利用, 这也同样影响着检测速度。

根据上面的讨论作者认为, 为了构建快速而强大的检测模型,合理的替代方案是通过引入某些人工设计的机制来增强轻量级网络的特征表示,而不是顽固地加深模型。 另一方面,神经科学中的一些发现表明,在人类视觉皮层中,群智感受野(pRF)的大小是其视网膜图中偏心率的函数,且如图一所示随着偏心率而增加. 这个结论同样证明了更靠近中心的区域在识别物体时拥有更高的比重或作用,并且大脑在对于小的空间变化时具有不敏感性。 一些现有的网络机制其实碰巧也在使用这一假设, 如pooling机制等等, 且这些机制或多或少的都在图像领域展现出了各自的能力和效果。

aebdd05b829fb20f7d9e29c7a92d5938.png
图1.群智感受野(pRF)属性的规律。 (A)pRF大小可以看作人类视网膜图中偏心率的函数,其中两个趋势是明显的:(1)pRF大小随着每个图中的偏心率而增加,以及(2)图之间的pRF大小有差异。 (B)基于(A)中的参数的pRF的空间阵列:每个圆的半径是在适当的偏心率下的表观RF尺寸。

目前现有的深度学习模型通常在特征图上使用常规采样网格将RF设置为相同尺寸,但是这可能会导致特征可辨性和鲁棒性的一些损失。Inception考虑了多种尺寸的RF,它通过使用具有不同卷积核的多分支CNN来实现这一功能,虽然Inception的一系列变体在目标检测(基于区域的框架中)和分类任务中实现了较为可观的结果,但是Inception的问题在于所有卷积核都在同一中心进行采样。类似的想法也出现在膨胀卷积网络中,膨胀卷积网络利用Atrous空间金字塔池(ASPP)来获取多尺度信息,在顶部特征图上应用了几个具有不同比率的并行卷积以改变与中心的采样距离,结果显示这一模块在语义分割中发挥着重要作用。但是上述特征针对先前的卷积层均具有相同的分辨率,并且与传统卷积层相比,其所产生的特征往往不那么独特。可变形CNN试图根据物体的尺度和形状自适应地调整RF的空间分布。尽管其采样网格是灵活的,但没有考虑RF的偏心率的影响: RF中的所有像素对输出响应贡献相同并且不重视最重要的信息。

受人类视觉系统中RF结构的启发,本文提出了一个新颖的模块: 感受野模块(RFB),加强了从轻量级CNN模型中学到的深层特征,使检测模型更加快速且准确。如图2所示: 具体来说,RFB利用具有与不同尺寸的RF相对应的不同卷积核的多分支池,应用膨胀卷积层来控制它们的偏心率,并将它们重新整合以生成最终表示。作者将RFB模块组装在SSD 上, 构建了一个新的one-stage检测模型(RFB Net)。得益于这样一个简单的模块,RFB Net展现出了相当不错的结果: 在精度可以与最新的基于更深层神经网络的检测模型相媲美的同时, 保持了原始轻量级检测模型的高速度。此外,由于对网络架构施加的限制很少, RFB可以作为一种通用模块嵌入到绝大多数网路当中。

640aa2f8e48b8ded72c2b211c5ee0863.png
图2 通过将多个分支与不同的卷积核和膨胀卷积组合来构建RFB模块。 多个卷积核类似于不同大小的pRF,而膨胀卷积为每个分支分配单独的偏心率以模拟pRF的大小和偏心率之间的比率。 通过将所有分支合并进行1*1卷积变换,产生RF的最终空间阵列,其机理类似于图1所示的人类视觉系统。

本文的贡献可以归纳如下:

  • 作者提出了RFB模块模拟人类视觉系统中pRF的大小和偏心度的函数关系,旨在增强轻量级CNN网络的深层特征。
  • 作者通过简单地用RFB替换SSD的顶部卷积层, 提出了基于RFB Net的检测模型. 它显示出显著的性能增益&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值