目标检测

FCOS

论文地址:http://xxx.itp.ac.cn/pdf/1904.01355.pdf
代码地址:https://github.com/tianzhi0549/FCOS

综述

提出一种新的不基于anchor的全卷积目标检测方法。优点有:

  1. 基于FPN的金字塔全卷积结构,后处理只有位置回归的加减和nms,速度有保障。
  2. 精度高,ResNeXt-64x4d-101的基础网络精度达到44.7(github上添加deformable卷积后的最高精度达到了49.0%)。

思想

借鉴语义分割,将目标检测和语义分割同统一进同一套系统,方便trick和网络的迁移整合。基础网络采用的特征金字塔结构,基础网络之后主要思想有:

  1. 根据label尺寸的不同,将其分配到不同的金字塔层级中进行预测。
  2. 分类是全图进行的,特征图上的每个位置都有类别进行预测;回归只对正样本进行,正样本是指label框内的所有点,label框外为负样本,不需进行拟合。
  3. 全卷积输出预测分类任务,通道数为类别数+1。有目标的区域类别为对应的label类别,无目标的区域label为0(背景)。每个预测都是个单独的二分类,而不是一个多分类(这里是作者没说原因,借鉴Focal Loss)。
  4. 全卷积输出预测分类任务,通道数为4。分别代表当前位置距离label四个方向的距离。距离是直接预测绝对距离??
  5. 为了抑制第二点引入的过多正样本,加入center-ness分支。该分支用来判断当前点距离中心点的距离,测试时将其乘以置信度得分,再进行mns,可以极大地减少误检。

网络结构

在这里插入图片描述

改进点

核心两点:

  1. 将label内的所有点当作正样本进行回归拟合。这可以增大训练的样本量,可得到更好的回归拟合效果。
  2. 新增center-ness分支,以只增加一个卷积层的代价,极大地提高了指标。较好地解决了第一点引入的误检问题。

实验结果

  1. 以resnet50-FP为基础网络,指标如下 :在这里插入图片描述
    (1)c5/p5是指以什么为基础生成p6和p7。(2)GN是指global normlization,在分类和回归的头部卷积中添加,用来增强模型的训练稳定性。
  2. 和其他网络比较
    在这里插入图片描述

VoVNet译文

An Energy and GPU-Computation Efficient Backbone Network
for Real-Time Object Detection(用于实时目标检测的能源和GPU计算高效的骨干网络)
论文地址:http://xxx.itp.ac.cn/pdf/1708.02002v2

Abstract

由于DenseNet通过密集的连接来聚集具有不同感受域的中间特征,因此在目标检测任务中显示出良好的性能。尽管特征重用使DenseNet能够以少量的模型参数和FLOP生成强大的特征,但是具有DenseNet主干的检测器显示出相当慢的速度较低的能源效率。我们发现通过密集连接线性增加输入通道会导致沉重的内存访问成本,从而导致计算开销和更多能耗。
为了解决DenseNet的低效率问题,我们提出了一种名为VoVNet的能源和计算高效的体系结构,该体系结构由One-Shot Aggregation(OSA)组成。 OSA不仅利用DenseNet的优势来代表具有多个接受域的多样化特征,而且还通过在最后一个特征图中仅对所有特征进行一次聚合来克服密集连接的效率低下的问题
为了验证VoVNet作为骨干网络的有效性,我们设计了轻量级和大型VoVNet,并将它们应用于一级和二级对象检测器。
我们的基于VoVNet的探测器在速度上比DenseNet的探测器快2倍,并且能耗降低了1.6至4.1倍。除了DenseNet,VoVNet还以更快的速度和更好的能源效率胜过了广泛使用的ResNet主干网
特别是,与DenseNet和ResNet相比,小物体检测性能得到了显着提高

1. introduction

随着卷积神经网络(CNN)的巨大进步,例如VGGNet [23],GoogleNet [25],Inception-V4 [24], ResNet [7], and DenseNet [9], 采用现代的CNN模型作为特征提取器已成为对象检测器的主流。 据报道,DenseNet最近在分类任务中达到了最先进的性能,因此很自然地尝试将其用途扩展到检测任务。在我们的实验中(表4),我们发现具有较少参数和FLOP的基于DenseNet的检测器优于使用ResNet的检测器,后者广泛用于对象检测的主干。
ResNet和DenseNet之间的主要区别在于它们聚合功能的方式; ResNet通过汇总从更浅层次汇总功能,而DenseNet通过串联进行汇总。如Zhu等所述:早期特征图所携带的信息会与其他信息相加而被淘汰。另一方面,通过串联,信息将保留原始形式,因此将持续存在。 几篇著作[25、17、13]证明具有多个接受域的抽象特征可以捕获各种规模的视觉信息。由于检测任务需要模型以比分类更多的尺度来识别对象,因此保留来自各个层的信息对于检测尤为重要,因为每个层具有不同的接收场。因此,在对象检测任务方面,与ResNet相比,DenseNet具有更好的多样性。
但是,我们在实验中还发现:尽管DenseNet的探测器的FLOP和模型参数要少,但使用DenseNet的探测器要花费更多的精力和时间。这是因为除了FLOP和模型大小以外,还有其他因素会影响能量和时间消耗。首先,访问内存以访问中间特征图所需的内存访问成本(MAC)是消耗的关键因素[18、28]。如图1(a)所示,由于通过密集连接将DenseNet中的所有先前特征图用作后续层的输入,因此这导致内存访问成本随网络深度成倍增加,进而导致计算开销和更多能源消费。
其次,对于GPU并行计算,DenseNet具有计算瓶颈的局限性。通常,当操作数张量较大时,GPU并行计算利用率会最大化[19,29,13]。 但是,由于线性增加了输入通道,DenseNet需要采用1×1卷积瓶颈架构来减小输入尺寸和FLOP,这会导致使用较小的操作数张量而增加层数。结果,GPU计算效率低下。
描述
本文的目的是提高DenseNet的效率,同时保留级联聚合为对象检测任务带来的好处。我们首先讨论MAC和GPU的计算效率,以及如何在架构设计阶段考虑因素。其次,我们声称DenseNet中间层中的密集连接正在导致效率低下,并假设密集连接是冗余的。考虑到这些想法,我们提出了一种新颖的“一键式汇总”(OSA),它可以一次汇总中间特征,如图1(b)所示。
这种聚合方法为MAC和GPU的计算效率带来了极大的好处,同时又保留了级联的强度。 通过OSA模块,我们构建了VoVnet1,这是用于实时检测的高能效骨干网。 为了验证VoVNet作为骨干网络的有效性,我们将VoVNet应用于各种对象检测器,例如DSOD,RefineDet和Mask R-CNN。结果表明基于VoVNet的检测器在能源效率和速度上均优于基于DenseNet或ResNet的检测器。

2. Factors of Efficient Network Design

在设计高效网络时,许多研究(例如MobileNet v1 [8],MobileNet v2 [21],ShuffleNet v1 [31],ShuffleNet v2 [18]和Pelee [26])主要集中在通过使用深度卷积和1×1卷积瓶颈架构来减少FLOP和模型大小。但是,减少FLOP和模型大小并不能始终保证减少GPU推理时间和实际能耗。 Ma等
[18]显示了一个实验,具有相似数量FLOP的ShuffleNet v2在GPU上的运行速度比MobileNet v2快。 Chen等[2]还显示,尽管SqueezeNet的权重比AlexNet少50倍,但它消耗的能量却比AlexNet多。这些现象表明,FLOP和模型大小是衡量实用性的间接指标,因此应重新考虑基于这些指标设计网络。为了构建高效的网络体系结构,除了FLOP和模型参数外,它注重更实用,更有效的度量标准,例如每幅图像的能量和每秒的帧数(FPS),重要的是要考虑其他影响能量和时间消耗的因素。

2.1 Memory Access Cost

我们指出的第一个因素是内存访问成本(MAC)。 CNN中能耗的主要来源是内存访问而不是计算[28]。具体而言,从DRAM(动态随机存取存储器)访问数据进行操作所消耗的能量比计算本身要高几个数量级。而且,内存访问的时间预算占了很大一部分时间消耗,甚至可能成为GPU进程的瓶颈[18]。这意味着即使在相同数量的计算和参数下,如果存储器访问的总数随模型结构而变化,那么能耗也会有所不同。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值