先贴一张流程图:
Abstract
研究背景:ViT已经在几个计算机视觉任务实现了很好的效果,其成就和架构设计高度相关,因此很值得提出Transformer Architecture Search (TAS)自动搜索更好的ViTs。
提出问题:当前的TAS方法非常耗时,且根据实验观察发现在CNN中使用的zero-cost proxies不能很好的推广到ViT搜索空间。
解决方法:先观察了如何以training-free的方式指导TAS进行并设计有效的training-free TAS范式。
- 首先,观察了多头自注意力模块(MSA)和多层感知机(MLP)的属性是非常不同的,且MSA的synaptic diversity更明显的影响实验结果。
- 其次,基于该观察,设计了一个DSS-indicator指标(包含synaptic diversity和synaptic saliency)来对ViT架构排序。通过DSS,评价结果和ViT的测试精度高度相关。
实验结果:极大提升了ViT架构的搜索效率,从24GPU days到0.5 GPU days。
1. Introduction
ViT的背景介绍:ViT最近在计算机视觉领域展示了巨大的竞争力,是一个很重要的研究热点。随着最近手工设计的ViT模型的涌现,Transformer Architecture Search (TAS)隆重登场并旨在以自动化的方式搜索多个ViT架构配置。
发现问题和分析:一方面,尽管one-shot NAS的范式已经在TAS领域中应用,但其仍需要大量地计算代价(大于24GPU days)去训练一个超网用于不同ViT架构的性能估计。另一方面,因为ViT搜索空间的范围比CNN的大很多,且ViT需要更多的训练epochs,所以one-shot-based TAS的搜索效率仍不能让人满意。
为了提升CNN搜索空间的搜索效率,一些proxies (e.g. GraSP, TE-score, NASWOT)等以zero-cost的方式评价CNN架构的排序。然而, CNN通常由卷积层组成,ViT由多头自注意力和多头感知机组成,这些差异会让直接应用zero-cost proxies至ViT产生风险。
因此,很有必要去观察探索zero-cost proxies应用到排序ViT网络的可能性并提升T