[论文翻译][1809 09294]Object Detection from Scratch with Deep Supervision

Zhiqiang ShenZhuang LiuJianguo LiYu-Gang JiangYurong ChenXiangyang Xue

原文地址:arxiv.org/abs/1809.09…

翻译水平有限,如有错误欢迎指正。

摘要

在这篇论文中,我们提出 Deeply Supervised Object Detectors (DSOD),这是一个能够否从头被训练的目标检测框架。最近,目标检测的的进步主要依赖于那些现成的模型,这些模型是在 ImageNet 和 OpenImage 这样的大规模分类数据集合上进行预训练而得来的。但是,将预训练模型从图片分类任务转而应用在目标检测任务上将会带来一个问题,那就是由目标函数 (objective function) 的不同和目标类别的不同分布 (diverse distributions of object categories) 而导致的学习偏差 (learning bias)。像微调 (fine-tune) 这样的技术应用于检测任务中能够在某种程度上减轻这个问题,但仍不能从根本上解决它。此外,这些预训练模型在不同领域之间的转化将会十分困难(例如,从 RGB 到深度图片。因此,解决这个重要问题的更好的方法就是从头训练目标检测器,这也促进了我们提出的这个方法的诞生。过去我们在这个方向上的努力主要失败于受限的训练数据和不成熟的、面向目标检测的主干网络架构。在 DSOD 中,我们为从头训练目标检测器提出一系列的设计准则。其中一条关键准则就是深度监督 (deep supervision),这条准则使主干网络 (backbone networks) 和预测层 (prediction layers) 之间逐层的稠密连接 (layer-wise dense connections) 成为可能,该准则在从头训练目标检测器的过程中扮演着重要的角色。在引入几条其他准则之后,我们基于 SSD(single-shot detection) 框架建立了 DSOD。我们在 PASCAL VOC 2007, 2012 和 COCO 数据集合上评估了我们的方法。 DSOD 以更紧凑的模型,相比于其他前沿的方法,一致地取得了更好的结果。特别地,DSOD 在三个不同基准下比原版本 SSD 方法表现更好,却只需要原来 1/2 的参数。我们也观察到 DSOD 在没有使用额外的数据或预训练模型时,能够(在输入近似大小图片的情况下)相比于 Mask RCNN[1] + FPN[2] 取得可比的或略微更好的结果,同时只需要其 1/3 的参数。

1 引言

目标检测一类的任务旨在自动地在自然图片上定位多种目标物体。这种任务由于在监视侦察、自动驾驶、智能安全等多领域的广泛应用而被重点研究。近几年来,随着越来越多的创新和基于强大卷积神经网络 (Convolutional Neural Networks) 的目标检测系统的提出,目标检测问题已经成为计算机视觉领域发展最快的分支之一。

为了达到期望的性能,先进的目标检测系统通常使用的方法是微调 (fine-tune) 在 ImageNet 数据集上预训练过的模型。这个微调 (fine-tune) 的过程也被看作是迁移学习 (transfer learning)。特别地,如图1所示,研究人员们常常首先使用像是 ImageNet 这样的大规模图片分类数据集训练卷积模型 (CNN models),而后针对目标任务对这些模型进行微调 (fine-tune),例如,图片分类[5], [6], [7], [8], [9],目标检测[10], [11], [12], [13], [1], [14], [15],图像分割[16], [17], [18], [19],细粒度图像识别 (finegrained recognition) [20], [21], [22], [23],图像描述 (captioning) [24], [25], [26], [27], [28], [29] 等等。从头开始学习意味着在不涉及其他附加的数据或额外的微调过程的情况下直接以目标任务为据训练模型。以过去的经验来看,在预训练模型上进行微调过程至少存在两个优点。第一个是,目前有大量的、先进的卷积预训练模型是公开的。研究人员将这些模型应用在他们各自的领域是十分方便的。第二,相比于基本的图片分类任务来说,在预训练的模型上进行微调能够使训练快速收敛到最终状态,并且只需要更少的标注了的训练数据。

但是,在目标检测领域应用预训练模型的几个重要局限性也是如此地明显:(I)*限制了模型架构的设计空间。*现存的目标检测算法直接套用预训练模型,所带来的结果是控制/调整精细网络结构的余地很小,甚至是在神经网络架构设计上做出小的调整都很困难。此外,由于预训练模型大部分来自于大规模图片分类任务,因此这些模型非常笨重(包含了大量的参数)而且在某些特定的场景下直接使用这些笨重的模型是不合适的。笨重的神经网络架构往往和计算资源的需求量存在联系。(II)*学习/优化偏差。*因为在图片分类任务和目标检测任务之间,在目标函数和类别的分布方面存在着一些差异,这些差异或许会导致不同的搜索/优化空间 (searching / optimization spaces)。因此,当所有的参数都从图片分类的预训练模型中得来时,目标检测任务模型的学习或许会陷入局部最小值的偏差中,而这并不是目标检测任务的最好结果。(III)*领域不匹配。*众所周知,微调能够缓和不同任务的类别分布(category distribution)之间的差异。但是,当源领域(例如,ImageNet)和目标领域之间存在巨大的差异时,微调仍然会产生一些问题。例如目标领域是深度图像,医疗影像等等[30]。

因此,我们的工作动力来源于下面的两个问题。第一,在不使用预训练模型的情况下直接从头训练一个目标检测网络是否可行?第二,如果第一个问题的答案是肯定的,是否存在一些准则能够为目标检测任务设计一个资源消耗少网络结构提供一些指导,而同时,这个网络结构还能够保持较高检测精度呢?为了达到这个目的,我们提出了深度监督目标检测(DSOD),一个能够从头训练目标检测模型的简单却高效的框架。DSOD 有着相当的灵活度,我们为像服务器、台式电脑、移动手机甚至嵌入式设备等不同的计算平台而调整神经网络架构。

我们为设计 DSOD 提出了一系列的设计准则。其中关键点在于*深度监督(deeply supervised)*结构,这受到了近期工作[31],[32]的启发。在[32]中,(Xie et al)提出了一个用于边缘检测的整体嵌套架构(holistically-nested structure),这个结构包括了为明确的深度监督而服务的基准神经网络中的每一个卷积阶段的边缘输出层(side-output layers)。相比于使用

转载于:https://juejin.im/post/5bada3685188255c6d0d9683

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值