论文阅读-基于RA的NAS

最新推荐文章于 2021-03-22 21:41:30 发布

睡不醒的书童

最新推荐文章于 2021-03-22 21:41:30 发布

阅读量281

点赞数

分类专栏：笔记神经网络结构搜索文章标签：神经网络

本文链接：https://blog.csdn.net/qq_38205273/article/details/113315590

版权

笔记同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

神经网络结构搜索

8 篇文章 2 订阅

订阅专栏

本文探讨了使用强化学习（RL）进行神经架构搜索（NAS），通过递归网络生成模型描述，优化策略梯度以设计高性能的神经网络结构。在CIFAR-10和Penn Treebank数据集上，这种方法展示了与人类设计的架构相媲美的性能，且在测试集精度和训练速度上有显著优势。此外，研究还发现，控制器能够学习生成包括跳过连接和循环单元在内的复杂结构。

摘要由CSDN通过智能技术生成

hello，这是鑫鑫鑫的论文分享站，今天分享的文章是NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING，这是一篇将强化学习算法应用于NAS的论文，我们一起看看吧~

摘要

神经网络是一种功能强大且灵活的模型，能够很好地处理图像、语音和自然语言理解等许多困难的学习任务。尽管取得了成功，神经网络仍然很难设计。在本文中，我们使用一个递归网络来生成神经网络的模型描述，并用强化学习来训练这个RNN，以使生成的结构在验证集上达到预期的精度。 在CIFAR-10数据集上，我们的方法从零开始，可以设计一种新的网络体系结构，在测试集精度方面可以与人类发明的最佳体系结构相媲美。我们的CIFAR-10模型实现了3.65%的测试错误率，比以前使用类似架构方案的最新模型好0.09%，快1.05倍。在Penn-Treebank数据集上，我们的模型可以组成一个新的循环单元，其性能优于广泛使用的LSTM单元和其他最先进的基线。我们的单元在Penn树库上实现了62.4%的测试集复杂度，比以前的最新模型好3.6个复杂度。该单元还可以转移到PTB上的字符语言建模任务中，实现了1.214的最新复杂度。

1简介

过去几年，深度神经网络在许多具有挑战性的应用中取得了很大成功，如语音识别（Hinton et al.，2012）、图像识别（LeCun et al.，1998；Krizhevsky et al.，2012）和机器翻译（Sutskever et al.，2014；Bahdanau et al.，2015；Wu et al.，2016）。伴随这一成功的是从特征设计到架构设计的范式转变，即从SIFT（Lowe，1999）和HOG（Dalal&Triggs，2005）到AlexNet（Krizhevsky et al.，2012）、VGGNet（Simonyan&Zisserman，2014）、GoogleNet（Szegedy et al.，2015）和ResNet（He et al.，2016a）。虽然设计架构变得更容易了，但它仍然需要大量的专家知识和足够的时间。
在这里插入图片描述

图1：神经架构搜索概述。

本文介绍了神经结构搜索，一种基于梯度（策略梯度）的方法来寻找好的结构（见图1）。 我们的工作是基于观察到的神经网络通常可以由一个可变长度的字符串来指定。因此，可以使用循环网络（控制器）来生成这样的字符串。在实际数据上训练字符串指定的网络（“子网络”）将导致验证集的准确性。利用这个精度作为奖励信号，我们可以计算策略梯度来更新控制器。因此，在下一次迭代中，控制器将为接收高精度的体系结构提供更高的概率。换句话说，随着时间的推移，控制器将学会改进搜索。

2 相关工作

超参数优化是机器学习中的一个重要研究课题，在实践中得到了广泛的应用（Bergstra et al.，2011；Bergstra&Bengio，2012；Snoek et al.，2012；2015；Saxena&Verbeek，2016）。尽管取得了成功，但这些方法仍然存在局限性，因为它们只能从固定长度的空间中搜索模型。换句话说，要求他们生成一个可变长度的配置来指定网络的结构和连接性是困难的。在实践中，如果提供良好的初始模型，这些方法通常效果更好（Bergstra&Bengio，2012；Snoek et al.，2012；2015）。有一些贝叶斯优化方法允许搜索非定长体系结构（Bergstra et al.，2013；Mendoza et al.，2016），但与本文提出的方法相比，它们的通用性和灵活性较差。

另一方面，现代神经进化算法，例如Wierstra等人（2005年）；Floreano等人（2008年）；Stanley等人（2009年），在构建新模型方面更加灵活，但在大规模上通常不太实用。它们的局限性在于它们是基于搜索的方法，因此它们的速度很慢或者需要很多启发式算法才能很好地工作。

神经结构搜索与程序综合和归纳编程有一些相似之处，即从示例中搜索程序的思想（Summers，1977；Biermann，1978）。在机器学习中，概率程序归纳法已成功应用于许多场合，例如学习解决简单问答（Liang et al.，2010；Neelakantan et al.，2015；Andreas et al.，2016），对数字列表排序（Reed&de Freitas，2015），以及用很少的例子学习（Lake et al.，2015）。

神经网络结构搜索中的控制器是自回归的， 即在预先预测的基础上，一次预测一个超参数。这一思想借鉴了端到端序列到序列学习中的解码器（Sutskever et al.，2014）。与序列到序列学习不同，我们的方法优化了一个不可微的度量，即子网络的精度。因此，它类似于神经机器翻译中的BLUU优化的工作（RANZATO等人，2015；Sin等人，2016）。与这些方法不同的是，我们的方法直接从奖赏信号中学习，而不需要任何有监督的自举。

与我们的工作相关的还有**“学会学习”或“元学习”**（Thrun&Pratt，2012），这是一个利用在一项任务中学习到的信息来改进未来任务的总体框架。更密切相关的是使用神经网络学习另一个网络的梯度下降更新的想法（Andrychowicz et al.，2016）和使用强化学习寻找另一个网络的更新策略的想法（Li&Malik，2016）。

3 算法

在下一节中，我们将首先描述一种使用递归网络生成卷积结构的简单方法。我们将展示如何使用策略梯度法训练递归网络，以最大化采样结构的预期精度。我们将介绍我们的核心方法的一些改进，例如形成跳过连接以增加模型的复杂性，以及使用参数服务器方法来加速训练。

3.1 使用控制器递归神经网络生成模型描述

在神经网络结构搜索中，我们使用一个控制器来生成神经网络的结构超参数。为了灵活，控制器采用递归神经网络实现。假设我们只想预测具有卷积层的前馈神经网络，我们可以使用控制器生成它们的超参数，作为一个令牌序列：
在这里插入图片描述
图2：我们的控制器递归神经网络如何采样一个简单的卷积网络。它预测一层和重复的过滤器高度、过滤器宽度、步幅高度、步幅宽度和过滤器数量。每个预测都由softmax分类器进行，然后作为输入送到下一个时间步。

在我们的实验中，如果层数超过某个值，生成架构的过程就会停止。这个值遵循一个时间表，在这个时间表中，我们会随着训练的进行而增加它。一旦控制器RNN完成生成一个体系结构，一个具有这个体系结构的神经网络就被建立和训练。在收敛时，在一个保持的验证集上记录网络的精度。然后对控制器RNN的参数进行优化，以最大限度地提高所提出结构的预期验证精度。

3.2强化训练（描述一种策略梯度方法，用于更新参数，以便控制器RNN随着时间的推移生成更好的体系结构） （重点）

控制器预测的令牌列表可以看作是为子网络设计体系结构的操作列表。在收敛时，这个子网络将在一个保持的数据集上实现精确性。我们可以用这种精度作为奖赏信号，用强化学习来训练控制器。更具体地说，为了找到最佳的架构，我们要求我们的控制器最大化其预期回报，表示为：在这里插入图片描述
由于奖赏信号是不可微的，因此需要使用策略梯度方法进行迭代更新。在这项工作中，我们使用威廉姆斯（1992）的强化规则：

上述数量的经验近似值为：
其中是控制器在一批中采样的不同体系结构的数量，是控制器为设计神经网络体系结构而必须预测的超参数的数量。
通过对训练数据集的训练，验证了神经网络结构的正确性。
上面的更新是对我们的梯度的无偏估计，但是有非常高的方差。为了减少该估计值的方差，我们采用了一个基线函数：
在这里插入图片描述
只要基线函数不依赖于当前动作，那么这仍然是一个无偏梯度估计。在这项工作中，我们的基线是以前架构精确度的指数移动平均值。

用并行和异步更新加速训练： 在神经结构搜索中，每次对控制器参数的梯度更新对应于训练一个子网络收敛。由于训练子网络可能需要数小时，我们使用分布式训练和异步参数更新来加快控制器的学习过程（Dean等人，2012）。我们使用一个参数服务器方案，其中有一个由碎片组成的参数服务器，用于存储控制器副本的共享参数。每个控制器副本对并行训练的不同子体系结构进行采样。然后，控制器根据收敛时该小批量体系结构的结果收集梯度，并将其发送到参数服务器，以便更新所有控制器副本的权重。在我们的实现中，当每个子网络的训练超过一定次数时，就达到了收敛。图3总结了这种并行方案。
在这里插入图片描述
图3：神经结构搜索的分布式训练。我们使用一组参数服务器来存储参数并将参数发送到控制器副本。然后，每个控制器副本对体系结构进行采样，并并行运行多个子模型。记录每个子模型的精度，以计算相对于的梯度，然后将其发送回参数服务器。

3.3 使用skip-connection和其他类型的层增加架构复杂性

在第3.1节中，搜索空间没有跳过连接，也没有用于现代体系结构（如GoogleNet（Szegedy et al.，2015）和剩余网络（He et al.，2016a））的分支层。在本节中，我们将介绍一种方法，该方法允许我们的控制器提出跳过连接或分支层，从而拓宽搜索空间。

为了使控制者能够预测这种联系，我们使用了一套基于注意机制（Bahdanau et al.，2015；Vinyals et al.，2015）的选择类型注意（Neelakantan et al.，2015） 。在层中，我们添加了一个锚定点，该锚定点具有−1个基于内容的sigmoid，以指示需要连接的先前层。每个sigmoid是控制器当前隐藏状态和前−1锚定点的前一隐藏状态的函数：
在这里插入图片描述
其中表示控制器在第-层的锚点处的隐藏状态，范围从0到−1。然后，我们从这些sigmoid中取样，以决定将哪些先前的层用作当前层的输入。矩阵和是可训练的参数。由于这些连接也由概率分布定义，因此加固方法仍然适用，没有任何重大修改。图4显示了控制器如何使用跳过连接来决定它想要哪些层作为当前层的输入。
在这里插入图片描述
图4：控制器使用锚定点，并设置选择注意以形成跳过连接。

在我们的框架中，如果一个层有多个输入层，那么所有的输入层在深度维度上是串联的。跳过连接可能会导致“编译失败”，其中一个层与另一个层不兼容，或者一个层可能没有任何输入或输出。为了避免这些问题，我们采用了三种简单的技术。首先，如果一个层未连接到任何输入层，则将图像用作输入层。第二，在最后一层，我们获取所有尚未连接的层输出，并在将最终hiddenstate发送到分类器之前将它们连接起来。最后，如果要连接的输入层具有不同的大小，我们用零填充小层，以便连接的层具有相同的大小。

最后，在第3.1节中，我们不预测学习率，我们还假设架构仅由卷积层组成，这也是相当严格的。可以将学习率添加为预测之一。此外，还可以预测体系结构中的池化、局部对比度标准化（Jarrett等人，2009；Krizhevsky等人，2012）和batchnorm（Ioffe&Szegedy，2015）。为了能够添加更多类型的层，我们需要在控制器RNN中添加一个额外的步骤来预测层类型，然后是与之相关的其他超参数。

3.4生成循环细胞结构

在本节中，我们将修改上述方法以生成递归单元。在每一个时间步，控制器都需要找到一个函数形式，它接受和作为输入。最简单的方法是have=tanh（W1∗xt+W2∗ht−1），这是一个基本的复发细胞的公式。更复杂的公式是广泛使用的LSTM复发细胞（Hochreiter&Schmidhuber，1997）。

基本RNN和LSTM单元的计算可以概括为一个步骤树，作为输入和最终输出。控制器RNN需要用组合方法（加法、元素乘法等）和激活函数（tanh、sigmoid等）标记树中的每个节点，以合并两个输入并产生一个输出。然后将两个输出作为输入提供给树中的下一个节点。为了使控制器RNN能够选择这些方法和函数，我们按顺序索引树中的节点，以便控制器RNN能够逐个访问每个节点并标记所需的超参数。

受LSTM单元构造的启发（Hochreiter&Schmidhuber，1997），我们还需要单元变量和表示内存状态。为了合并这些变量，我们需要控制器RNN来预测树中连接这两个变量的节点。这些预测可以在控制器RNN的最后两个块中完成。

为了更清楚地说明这个过程，我们在图5中展示了一个示例，它是一个树结构，它有两个叶节点和一个内部节点。叶节点由0和1索引，内部节点由2索引。控制器RNN需要首先预测3个块，每个块为每个树索引指定组合方法和激活函数。之后，它需要预测最后两个块，它们指定如何连接树中的临时变量。
在这里插入图片描述
图5：由一棵树构造的递归单元的示例，该树有两个叶节点（基2）和一个内部节点。左：定义控制器要预测的计算步骤的树。中心：由控制器为树中的每个计算步骤所做的一组预测示例。右：根据控制器的示例预测构造的递归单元的计算图。

根据本例中控制器RNN的预测，将发生以下计算步骤：
•控制器预测树索引0，这意味着我们需要计算=tanh（W1xt+W2ht-1）
•控制器预测树索引1，这意味着我们需要计算=ReLU电子结果雷卢一1 .
•控制器预测“单元索引”的第二个元素为0，并且添加雷卢对于“单元注入”中的元素，这意味着我们需要计算=ReLU（a0+ct−1）。请注意，对于树的内部节点，我们没有任何可学习的参数。
•控制器预测树索引2，这意味着我们需要计算=sigmoid(电子结果乙状结肠一2 . 因为树中的最大索引是2，所以设置为
•控制器RNN预测“单元索引”的第一个元素为1，这意味着我们应该设置计算机断层扫描到激活前索引1处的树的输出，即。，（W4∗ht-）。1
在上面的例子中，树有两个叶子节点，因此它被称为“base2”架构。在我们的实验中，我们使用一个基数8来确保细胞的表达能力。

4实验和结果

我们将我们的方法应用于CIFAR-10的图像分类任务和Penn-Treebank的语言建模任务，这两个数据集是深度学习中最具基准的数据集。在CIFAR-10上，我们的目标是找到一个好的卷积结构，而在Penn Treebank上，我们的目标是找到一个好的循环细胞。在每个数据集上，我们都有一个单独的验证数据集来计算奖励信号。对于在保留的验证数据集上获得最佳结果的网络，测试集上报告的性能只计算一次。关于我们的实验程序和结果的更多细节如下。

4.1学习CIFAR-10的卷积体系结构

数据集：在这些实验中，我们使用CIFAR-10数据集进行数据预处理和扩充，这与以前的其他结果是一致的。我们首先通过对所有图像进行白化来对数据进行预处理。此外，我们对每幅图像进行上采样，然后随机选取32x32的上采样图像。最后，我们在这个32x32裁剪的图像上使用随机水平翻转。
搜索空间：我们的搜索空间由卷积结构组成，校正后的线性单元为非线性（Nair&Hinton，2010），批量标准化（Ioffe&Szegedy，2015）和层间跳过连接（第3.3节）。对于每个卷积层，控制器RNN必须在[1，3，5，7]中选择滤波器高度，[1，3，5，7]中选择滤波器宽度，[24，36，48，64]中选择滤波器的数目。对于步幅，我们进行了两组实验，一组将步幅固定为1，另一组允许控制器预测[1，2，3]中的步幅。

训练细节：控制器RNN是一个两层LSTM，每层有35个隐藏单元。它使用ADAM优化器（Kingma&Ba，2015）进行培训，学习率为0.0006。控制器的权重在-0.08和0.08之间均匀初始化。对于分布式训练，我们将参数服务器碎片数设置为20，控制器副本数设置为100，子副本数设置为8，这意味着在800个gpu上可以同时训练800个网络。

一旦控制器RNN对一个体系结构进行采样，一个子模型就被构造并训练了50个时期。用于更新控制器的奖励是最后5个历元的最大验证精度。验证集从训练集中随机抽取5000个样本，剩余的45000个样本用于训练。训练CIFAR-10子模型的设置与Huang等人（2016a）中使用的设置相同。我们使用动量优化器，学习率为0.1，权重衰减为1e-4，动量为0.9，并使用Nesterov动量（Sutskever等人，2013）。
在控制器的训练过程中，我们使用一个随着训练的进行而增加子网络层数的时间表。在CIFAR-10上，我们要求控制器从6层开始，每1600个样本将子模型的深度增加2。

结果：在对12800个体系结构进行训练后，我们找到了达到最佳验证精度的体系结构。然后，我们运行一个小的网格搜索学习率，权重衰减，范数epsilon和什么时代衰减的学习率。从这个网格搜索得到的最佳模型运行到收敛，然后我们计算这种模型的测试精度，并将结果总结在表1中。从表中可以看出，神经结构搜索可以设计出几种有前途的结构，这些结构的性能与此数据集上的一些最佳模型相当。
在这里插入图片描述
表1:CIFAR-10上神经结构搜索和其他最新模型的性能。

首先，如果我们要求控制器不预测步幅或池，它可以设计一个15层结构，在测试集上达到5.50%的错误率。这种结构在精确度和深度之间有很好的平衡。事实上，它是本表中性能最好的网络中最浅薄、也许也是最便宜的体系结构。该体系结构如附录A图7所示。这种结构的一个显著特点是它有许多矩形滤波器，并且它更喜欢在顶层使用较大的滤波器。与剩余网络（He等人，2016a）一样，该体系结构也有许多单步跳转连接。这种结构是局部最优的，如果我们干扰它，它的性能就会变差。例如，如果我们使用skip连接密集地连接所有层，那么它的性能会稍微差一点：5.56%。如果删除所有跳过连接，其性能将下降到7.97%。
在第二组实验中，除了其他超参数外，我们还要求控制器预测步幅。如前所述，这更具挑战性，因为搜索空间更大。在这种情况下，它找到了一个20层的体系结构，在测试集上实现了6.01%的错误率，这并不比第一组实验差多少。
最后，如果我们允许控制器在体系结构的第13层和第24层包含2个池层，控制器可以设计一个39层的网络，达到4.47%，这非常接近人类发明的最佳体系结构，达到3.74%。为了限制搜索空间的复杂性，我们让我们的模型预测13层，其中每一层预测是一个完全连接的3层块。此外，我们将模型可以预测的过滤器数量从[24，36，48，64]更改为[6，12，24，36]。通过在体系结构的每一层增加40个过滤器，我们的结果可以提高到3.65%。此外，该模型添加了40个滤波器，速度是DenseNet模型的1.05倍，达到3.74%，同时具有更好的性能。达到3.46%错误率的DenseNet模型（Huang等人，2016b）使用1x1卷积来减少其参数总数，我们没有这样做，因此它不是一个精确的比较。

4.2 PENN TREEBANK的学习循环细胞

数据集：我们将神经架构搜索应用于Penn Treebank数据集，这是一个著名的语言建模基准。在这项任务中，LSTM体系结构往往表现出色（Zaremba et al.，2014；Gal，2015），改进它们很困难（Jozefowicz et al.，2015）。由于PTB是一个小数据集，需要正则化方法来避免过拟合。首先，我们利用了Zaremba等人（2014）和（Gal，2015）提出的嵌入退出和重复退出技术。我们还尝试将它们与共享输入和输出嵌入的方法相结合，例如Bengio et al.（2003）；Mnih&Hinton（2007），尤其是Inan et al.（2016）和Press&Wolf（2016）。此方法的结果用“共享嵌入”标记
搜索空间：在第3.4节之后，我们的控制器依次为树中的每个节点预测一个组合方法，然后是一个激活函数。对于树中的每个节点，控制器RNN需要在[add，elem mult]中选择组合方法，在[identity，tanh，sigmoid，relu]中选择激活方法。RNN单元的输入对数称为“基数”，在我们的实验中设置为8。当基数为8时，搜索空间大约有6×1016个体系结构，这比我们允许控制器评估的15000个体系结构要大得多。
训练细节：控制器及其训练与CIFAR-10实验基本相同，只是做了一些修改：1）控制器RNN的学习率为0.0005，略小于CIFAR-10中控制器RNN的学习率；2）在分布式训练中，我们设置为20，设置为400，设置为1，这意味着在任何时候都有400个网络同时在400个cpu上进行训练，3）在异步训练期间，我们只会在副本中累积10个梯度后对参数服务器进行参数更新。S码K公司米
在我们的实验中，每个儿童模型被构建并训练了35个时期。每个子模型都有两层，调整隐藏单元的数量，使可学习参数的总数与“中等”基线大致匹配（Zaremba等人，2014；Gal，2015）。在这些实验中，我们只需要控制器预测RNN细胞的结构并确定所有其他超参数。

奖励功能是(验证困惑c级)其中是一个常数，通常设置为80。

对控制器RNN进行训练后，根据最小的验证复杂度选取最优的RNN单元，然后对学习率、权值初始化、退出率和衰减时间进行网格搜索。找到的最好的电池使用三种不同的配置和尺寸来增加容量。
结果：在表2中，我们提供了一个完整的体系结构列表及其在PTB数据集上的性能。从表中可以看出，在这个数据集上，通过神经结构搜索找到的模型比其他最先进的模型有更好的表现，我们最好的模型之一获得了几乎3.6倍的复杂度。不仅我们的单元更好，实现64困惑的模型也快了两倍多，因为以前最好的网络要求每个时间步运行一个单元10次（Zilly et al.，2016）。
在这里插入图片描述

表2:Penn树库语言建模任务测试集的单模型困惑。参数值是参考Merity等人（2016）的估计值。‡
新发现的单元如附录A中的图8所示。可视化显示，新单元在最初的几个步骤中与LSTM单元有许多相似之处，例如它喜欢多次计算∗ht−1+W2∗xt并将其发送到单元中的不同组件。

迁移学习结果：为了了解细胞是否可以推广到不同的任务，我们将其应用到同一数据集上的字符语言建模任务中。我们使用了一个类似于Ha等人（2016）的实验装置，但使用了Gal（2015）的变分辍学。我们还通过设置来训练自己的LSTM，以获得公平的LSTM基线。对模型进行80K步的训练，按照验证集复杂度最好的步骤选取最佳测试集复杂度。我们的方法和最新方法的测试集结果如表3所示。在5-6M参数的小环境下的实验结果表明，新单元确实具有推广性，并且优于LSTM单元。
此外，我们还进行了一个较大的实验，模型参数为16.28M。该模型的权重衰减率为1e−4，训练了600K步（比上述模型长），在验证集复杂度最高的地方进行测试。我们使用Gal（2015）中描述的0.2和0.5的辍学率，但不使用嵌入辍学率。我们使用ADAM优化器，学习率为0.001，输入嵌入大小为128。我们的模型有两层，有800个隐藏单元。我们使用了32的小批量大小和100的BPTT长度。在这个设置下，我们的模型达到了1.214的复杂度，这是这个任务的最新成果。
最后，我们还将我们的单元放入GNMT框架（Wu et al.，2016），该框架先前针对LSTM单元进行了调整，并训练WMT14英语→德语翻译模型。GNMT
在这里插入图片描述

表3:PTB角色建模的cell方法和最新方法的比较。新的细胞是在单词级语言建模中发现的。

网络在编码器中有8层，在解码器中有8层。编码器的第一层具有双向连接。注意模块是一个具有1个隐层的神经网络。使用LSTM单元时，每层中的隐藏单元数为1024。该模型在一个参数服务器和12个工人的分布式环境下进行训练。此外，每个工人使用8个GPU和128个小批量。在最初的60K训练步骤中，我们使用Adam的学习率为0.0002，在400K训练步骤中使用SGD的学习率为0.5。之后，学习率每100K步除以2进行退火，直到达到0.1。80万步停止训练。更多细节见Wu等人（2016）。
在我们对新单元的实验中，除了插入新单元并调整超参数以使新模型具有与基础模型相同的计算复杂度之外，我们没有对上述设置进行任何更改。结果表明，在相同的计算复杂度下，我们的单元比默认的LSTM单元提高了0.5个测试集BLEU。尽管这种改进不是很大，但是新单元可以在不调整现有GNMT框架的情况下使用这一事实是令人鼓舞的。我们希望进一步的调整可以帮助我们的细胞表现更好。
控制实验1-在搜索空间中添加更多函数：为了测试神经结构搜索的鲁棒性，我们添加到组合函数列表和激活函数列表中，然后重新运行我们的实验。结果表明，即使在搜索空间较大的情况下，该模型也能获得相当的性能。最佳体系结构与和如附录A中的图8所示。最大值罪最大值罪
对照实验2–与随机搜索的比较：可以使用随机搜索来找到最佳网络，而不是策略梯度。尽管这一基线看似简单，但往往很难超越（Bergstra&Bengio，2012）。我们在图6中报告了在训练过程中使用针对随机搜索的策略梯度的困惑改进。结果表明，采用策略梯度的最优模型不仅优于采用随机搜索的最优模型，而且top模型的平均值也要好得多。
在这里插入图片描述

图6：随着时间的推移，神经结构搜索优于随机搜索。我们绘制了控制器找到的顶级模型的平均值与每运行400个模型的随机搜索值之间的差异。

5结论

本文介绍了一种用递归神经网络构造神经网络结构的思想，即神经结构搜索。该方法采用递归网络作为控制器，具有搜索变长结构空间的灵活性。我们的方法在非常具有挑战性的基准测试上具有很强的实证性能，为自动寻找良好的神经网络结构提供了一个新的研究方向。运行控制器在CIFAR-10和PTB上找到的模型的代码将在https://github.com/tensorflow/models. 此外，我们还将使用我们的方法在名称NASCell下找到的RNN单元添加到TensorFlow中，以便其他人可以轻松地使用它。