不需要预训练模型的目标检测算法DSOD

论文:Learning Deeply Supervised Object Detectors from Scratch

1. 前言

DSOD(Deeply Supervised Object Detectors)是ICCV 2017的一篇文章,它表达了一个非常有意思的东西。这篇论文不是从目标检测的高mAP值或者速度更快出发,而是从另外一个角度切入来说明fine-tune后的检测模型和直接训练的检测模型的差距其实是可以减少的,也即是说一些检测模型可以摆脱fine-tune这一过程,并且相比于fine-tune训练出来的模型效果并不会变差。

2. 介绍

DSOD这一算法是在SSD的基础上进行的改进,可以简单的看成:

DSOD=SSD+DenseNet

作者在论文中提到他也实验了从 0 0 0开始训练Region Proposal Based的检测算法比如Faster RCNN,R-FCN等,但这些模型很难收敛。而One-Stage的目标检测算法比如SSD却可以收敛,虽然效果很一般,因此最后作者使用SSD作为了这篇论文接下来讨论的BaseLine。

然后本文基于SSD改进的DSOD在VOC2007 trainval和2012 trainval数据集上训练模型,然后在VOC2007 testset上测试的表现(77.7%mAP)超过了使用fine-tune策略的SSD300S(69.6%mAP)和SSD300(75.8mAP),原文是这样描述的。

Our DSOD300 achieves 77.7% mAP, which is much better than the SSD300S that is trained from scratch using VGG16 (69.6%) without deep supervision. It is also much better than the fine-tuned results by SSD300 (75.8%)

3. 出发点

这篇文章的出发点是什么呢?作者认为几乎的所有检测网络都在使用fine-tune这一技巧,那么一定要用fine-tune吗?作者列出来了3个原因来尝试说明fine-tune不是必须的。原因如下:

  • 预训练的模型一般是在分类图像数据集比如Imagenet上训练的,不一定可以迁移到检测模型的数据上(比如医学图像)。
  • 预训练的模型,其结构都是固定的,因此如果想要再修改的话比较麻烦。
  • 预训练的分类网络的训练目标一般和检测目标不一致,因此预训练的模型对于检测算法而言不一定是最优的选择。

基于上面这几点原因,论文提出了一个从 0 开 0开 0始的检测模型DSOD,我们接下来看看是怎么设计的吧。

4. DSOD网络结构

下面的Figure1分别展示了SSD的整体结构和DSOD的整体结构。

SSD和DSOD网络结构

Figure1左图的plain connection表示SSD网络中的特征融合操作,这里对于 300 ×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值