[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search

最新推荐文章于 2023-04-03 12:19:13 发布

Eavan努力努力再努力

最新推荐文章于 2023-04-03 12:19:13 发布

阅读量827

点赞数 1

分类专栏：神经架构搜索文章标签：大数据

本文链接：https://blog.csdn.net/m0_37412775/article/details/125758410

版权

本文提出TF-NAS，一种训练免费的Transformer架构搜索方法，通过观察多头自注意力模块(MSA)和多层感知机(MLP)的特性，设计了DSS-indicator，大大提高了ViT架构搜索效率，从24GPU天降至0.5GPU天。实验表明，MSA的synaptic diversity和MLP的synaptic saliency与模型性能高度相关。

摘要由CSDN通过智能技术生成

先贴一张流程图：

Abstract

研究背景：ViT已经在几个计算机视觉任务实现了很好的效果，其成就和架构设计高度相关，因此很值得提出Transformer Architecture Search (TAS)自动搜索更好的ViTs。

提出问题：当前的TAS方法非常耗时，且根据实验观察发现在CNN中使用的zero-cost proxies不能很好的推广到ViT搜索空间。

解决方法：先观察了如何以training-free的方式指导TAS进行并设计有效的training-free TAS范式。

首先，观察了多头自注意力模块(MSA)和多层感知机(MLP)的属性是非常不同的，且MSA的synaptic diversity更明显的影响实验结果。
其次，基于该观察，设计了一个DSS-indicator指标（包含synaptic diversity和synaptic saliency)来对ViT架构排序。通过DSS，评价结果和ViT的测试精度高度相关。

实验结果：极大提升了ViT架构的搜索效率，从24GPU days到0.5 GPU days。

1. Introduction

ViT的背景介绍：ViT最近在计算机视觉领域展示了巨大的竞争力，是一个很重要的研究热点。随着最近手工设计的ViT模型的涌现，Transformer Architecture Search (TAS)隆重登场并旨在以自动化的方式搜索多个ViT架构配置。

发现问题和分析：一方面，尽管one-shot NAS的范式已经在TAS领域中应用，但其仍需要大量地计算代价(大于24GPU days)去训练一个超网用于不同ViT架构的性能估计。另一方面，因为ViT搜索空间的范围比CNN的大很多，且ViT需要更多的训练epochs，所以one-shot-based TAS的搜索效率仍不能让人满意。

为了提升CNN搜索空间的搜索效率，一些proxies (e.g. GraSP, TE-score, NASWOT)等以zero-cost的方式评价CNN架构的排序。然而， CNN通常由卷积层组成，ViT由多头自注意力和多头感知机组成，这些差异会让直接应用zero-cost proxies至ViT产生风险。

因此，很有必要去观察探索zero-cost proxies应用到排序ViT网络的可能性并提升T