DenseNAS密集连接搜索空间下的高灵活度网络结构搜索

近年来,网络结构搜索(NAS)在神经网络结构的自动设计中取得了巨大的成功,已成为模型结构优化领域的一个重要研究课题。NAS不仅减轻了设计和优化模型结构的沉重负担,而且与人工网络结构相比,还提高了搜索模型的性能。

最近,地平线 - 华中科技大学计算机视觉联合实验室提出了一种新的差异化NAS方法DenseNAS,它可以搜索网络结构中每个块的宽度和空间分辨率。本文将从介绍,网络规模搜索的思想,实现方法和实验结果等方面介绍一种新的网络结构搜索方法DenseNAS。

DenseNAS简介

NAS极大地促进了神经网络结构设计的发展,但许多以前的工作仍然需要大量的计算成本。最近,差异化NAS通过在连续空间中构建超级网络大大降低了搜索成本,但事实上,很少有可区分的方法可以搜索网络结构的宽度(即通道数),因为根据传统的可区分NAS侧。方法,难以将不同宽度的结构集成到超级网络中。在本文中,我们提出了一种新的Difenanti NAS,DenseNAS方法,它可以搜索网络结构中每个块的宽度和空间分辨率。我们通过建立密集连接的搜索空间来实现这一目标。在我们设计的搜索空间中,具有不同宽度和空间分辨率的块被互连,并且块之间的转换概率被优化以在搜索过程中选择最佳路径。DenseNAS使网络结构的搜索更加灵活,从宽度搜索开始,同时在网络结构下搜索采样的位置和全局深度(不仅是每个块中的层数,还包括要搜索的块的数量) )。在ImageNet上,DenseNAS的模型以更低的延迟实现了75.9%的准确率,整个搜索过程在四个GPU上只需要23个小时。

DenseNAS具有更高的灵活性,具有更大的应用潜力。它可用于特定场景数据的结构搜索,特定性能和速度要求的搜索以及特定设备的结构部署,因为它在搜索空间中具有更大的灵活性,并且还可用于对比例敏感的方向,例如检测和分割任务。

NAS搜索元素的梳理

设计神经网络结构是深度学习中非常重要的领域。近年来,NAS在神经网络的自动设计方面取得了巨大成功。许多NAS方法生成的模型结构比手动设计的模型结构具有更好的性能。目前,NAS在许多领域取得了进展,如分类,分割和检测。NAS不仅可以提高模型的性能,还可以减轻设计和优化模型结构的负担。

在模型结构设计过程中可以搜索的元素越多,相应工程师的负担就越少。可以搜索哪些元素取决于搜索空间的设计方式。在过去的工作中,搜索操作类型已经取得了较好的效果,但搜索网络的规模(宽度和深度)并没有那么直接。基于强化学习(RL)或进化算法(EA)的NAS方法可以容易地搜索宽度和深度,因为它们的搜索空间在离散空间中,但是这样的方法通常需要非常大的计算成本。最近,差分和一次性方法已经能够以非常小的搜索成本实现高性能网络结构,但是网络规模搜索不容易处理。搜索这种方法取决于包含所有可能结构的超级网络。网络规模的搜索需要将不同大小的所有结构集成到超级网络中。目前,通过向每个候选添加身份连接操作来实现深度搜索,但是宽度搜索仍然不容易处理。

DenseNAS的网络规模搜索理念

深度和宽度设置通常会对结构的性能产生很大影响,尤其是小宽度变化可能会导致模型尺寸的爆炸式增长。在当前的搜索方法中,宽度通常由人们预先设定,这需要模型结构专家的丰富经验。我们的目标是解决基于可微NAS的广度搜索问题,并提出一种DenseNAS方法。我们的方法构建密集连接的搜索空间,并将搜索空间映射到连续可操作的空间。与DenseNet不同,我们的搜索过程选择最佳宽度增长路径,最终只选择部分块,并且最终结构中的块之间不会有任何连接。在搜索空间中,每个块对应于不同的宽度和空间分辨率,因此不仅将搜索宽度,还将搜索下采样的位置和全局深度(内层的数量+块的数量),这使得整个搜索过程更加灵活。

方法介绍

1.建立密集连接的搜索空间

我们将整个搜索空间划分为几个层次:层,块和网络。

每个层包含基于MBConv的各种操作候选,以及跳过深度搜索的连接。

每个块由层组成,块被分成两个部分,头层和堆叠层。我们为每个块设置宽度和相应的空间分辨率。对于头层,其输入来自前几个块的不同通道数和空间分辨率的数据。第一层是并行的,将所有输入数据转换为相同数量的通道和空间分辨率;堆栈层是串行的,每个层设置为相同的通道数和分辨率,并且可以搜索每个层的操作。

与以前的工作不同,块数是固定的。我们的搜索空间包含更多具有不同宽度的块,最终只选择其中一部分,这使得搜索更加自由。整个网络由几个阶段组成,每个阶段对应于一系列宽度和固定的空间分辨率。网络中块的宽度从头到尾逐渐增加,每个块将连接到几个后续块。

2.搜索空间的连续性放松

对于层次层次,为每个候选操作分配结构参数,并且通过对所有候选操作的总和进行加权来获得层的输出。

对于块级,每个块的数据将输出到几个后续块,并且每个输出路径也将被给予结构参数,该参数将通过softmax归一化为输出概率。每个块接受连续块的输出数据。在头层部分中,来自不同块的数据由路径的概率值加权。

3.搜索算法

整个搜索过程分为两个阶段。在第一阶段,仅优化操作的重量参数;在第二阶段,根据时期交替优化操作的权重参数和结构参数。当整个搜索过程结束时,我们使用结构参数来导出最终结构。在网络级,我们使用维特比算法来选择具有最高传输概率的路径,并且仅选择块的一部分。

在搜索过程中,我们添加了多目标优化,将延迟作为子优化目标,并通过查找表进行优化。

在参数优化过程中,我们使用概率采样路径来加速。对于操作的权重参数,采样路径的优化方法不仅可以加速和减少显示存储器的消耗,而且还可以在一定程度上降低不同结构的操作之间的耦合效应。

实验结果

DenseNAS在ImageNet上搜索的结果如下表所示。我们将GPU上的延迟设置为子优化目标,而DenseNAS搜索模型在低延迟下实现了出色的准确性。在相同的延迟设置下,DenseNAS的准确度远高于手动设计的MobileNet模型。与NASNet-A,AmoebaNet-A和DARTS等经典NAS模型相比,DenseNAS模型具有更高的精度和更小的FLOP和延迟。DenseNAS在搜索时间内仅在四个GPU上花费23小时(92 GPU小时)。与Proxyless和FBNet相比,我们可以自动搜索宽度并获得出色的模型性能。

DenseNAS进一步搜索具有不同延迟优化程度的模型。在各种延迟设置和要求下,它可以获得具有优越性能的模型结构,这比固定宽度/块搜索和手动设计要好得多。

通过DenseNAS搜索获得的模型结构如下图所示:

论文地址:https://arxiv.org/abs/1906.09607

代码地址:关注微信公众号:“图像算法”或者搜索imalg_cn 即可获取

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值