论文阅读-基于one-shot的NAS

最新推荐文章于 2024-04-16 16:03:11 发布

睡不醒的书童

最新推荐文章于 2024-04-16 16:03:11 发布

阅读量1.4k

点赞数 2

分类专栏：笔记神经网络结构搜索文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_38205273/article/details/115051276

版权

hello，这是鑫鑫鑫的论文分享站，今天分享的文章是Understanding and Simplifying One-Shot Architecture Search，这是一篇理解one-shot的NAS的论文，我们一起看看吧~

摘要：

神经网络架构设计的自动化越来越引起人们的兴趣。现有的体系结构搜索方法需要从零开始训练数千种不同的体系结构，在计算上价格很昂贵。最近的工作探索了跨模型的权重共享，以摊销培训成本。虽然以前的方法降低了架构搜索的成本数量级，但它们仍然很复杂，需要超网络或增强学习控制器。我们的目标是了解一次性架构搜索的权重共享。通过仔细的实验分析，我们证明了在没有超网络或RL的情况下，从复杂的搜索空间中有效地识别出有前途的体系结构是可能的。

1.介绍：

设计神经网络是一个劳动密集型的过程，需要专家进行大量的试验和错误。人们对自动寻找良好的神经网络架构越来越感兴趣。例如，卓普等人表明，我们可以找到一种在CIFAR-10、imagenet和COCO数据集上同时实现最先进性能的架构。然而，这些搜索方法非常急需资源。卓等人使用了450GPU来运行一个实验，他们提出了一种基于RL的方法，其中一个神经网络（控制器）列举了一组需要评估的架构，每个架构都在CIFAR-10上从零开始训练一个固定数量的时代，然后在一个验证集上进行评估。控制器的权重随后会根据所训练的模型的验证精度进行更新。

对于一个典型的机器学习实践者来说，训练成千上万的模型是困难的或不可能的。为了解决架构搜索的这一弱点，新方法已经被提出，一个有希望的方向是在模型之间共享权重，与其从零开始训练数千个单独的模型，不如训练一个能够模拟搜索空间中任何体系结构的大型网络。

一个简单的例子如图1所示，
在这里插入图片描述
其中我们可以选择在网络中的特定位置应用3x3卷积、5x5卷积或最大池化层，而不是训练三个独立的模型，我们可以训练一个包含所有三个操作的单一模型（一次性模型）。在评估时，我们有选择地将三个操作中的两个输出归零，以确定哪一个操作导致最佳的预测精度。在更复杂的例子中，搜索空间可能包括网络中许多不同位置的选择。搜索空间的大小随着选择的数量呈指数增长，而一次模型的大小仅呈线性增长。同样的权重被用来评估许多不同的体系结构，减少了运行体系结构搜索所需的资源数量级。

尽管效率有所提高，但很自然地会怀疑在不同型号之间的权重共享是否存在固有的限制。 为什么异构体系结构集能够共享一组权重？ 一次性模型通常只用于对搜索空间中的体系结构进行排序；性能最好的体系结构在搜索完成后从零开始重新培训。但是，即使有了这种限制，一个固定的权重集可以在广泛的体系结构中很好地工作的想法也是违反直觉的。 SMASH的方法试图通过使用超网络在每个候选体系结构中生成很大一部分权重来解决这一问题。

尽管高效的架构搜索(ENAS)通过交替训练共享模型权重和训练控制器来解决同样的问题，这些控制器从搜索空间中识别出要关注的架构子集。

我们在本文中的目标是了解权重共享在高效架构搜索方法中的作用。也许令人惊讶的是，我们表明，无论是超网络还是RL控制器都不需要获得良好的结果。为了做到这一点，我们训练了一个包含搜索空间中所有可能操作的大型一次性模型。然后，我们将一些操作归零，并测量对模型预测精度的影响。当仔细训练时，我们表明网络自动将其能力集中在对产生良好预测最有用的操作上。将不太重要的操作归零只会对模型的预测产生很小的影响。 相反，将更重要的操作归零对模型的预测及其验证集的准确性都有夸大的影响。事实上，通过从训练集中查看未标记的示例，可以预测体系结构的验证集的准确性。这种行为是权重共享的隐式结果，既不需要超网络，也不需要显式控制器。

2.相关工作

使用元学习来改进机器学习有着悠久的历史，除了架构搜索，元学习还被用来优化学习算法的其他组件，如更新规则和激活函数。

我们的工作与SMASH最密切相关，这反过来又受到NAS的激励。在NAS中，使用神经网络控制器来搜索良好的体系结构。 NAS控制器的训练需要一个循环：控制器提出子模型体系结构，并对其进行训练和评估。然后，通过策略梯度更新控制器(Williams，1992)，以随着时间的推移采样更好的体系结构。一旦控制器完成训练，最好的架构被选择和训练更长的时间，以提高他们的准确性。 NAS的主要瓶颈是对子模型架构的培训；SMASH旨在摊销这一成本。在SMASH中，对超网络进行先验训练，为搜索空间中的每个子模型体系结构生成合适的权重。然后使用相同的固定超网络来评估许多不同的子模型体系结构。

NAS和SMASH两者都将架构搜索视为一个黑盒优化问题，可以使用现成的技术进行优化。在超参数优化中，还在基于人口的培训中探索了模型之间共享参数

最低0.47元/天解锁文章

睡不醒的书童

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
论文阅读-基于one-shot的NAS

hello，这是鑫鑫鑫的论文分享站，今天分享的文章是Understanding and Simplifying One-Shot Architecture Search，这是一篇理解one-shot的NAS的论文，我们一起看看吧~摘要：神经网络架构设计的自动化越来越引起人们的兴趣。现有的体系结构搜索方法需要从零开始训练数千种不同的体系结构，在计算上价格很昂贵。最近的工作探索了跨模型的权重共享，以摊销培训成本。虽然以前的方法降低了架构搜索的成本数量级，但它们仍然很复杂，需要超网络或增强学习控制器.
复制链接

扫一扫