[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search

本文提出TF-NAS,一种训练免费的Transformer架构搜索方法,通过观察多头自注意力模块(MSA)和多层感知机(MLP)的特性,设计了DSS-indicator,大大提高了ViT架构搜索效率,从24GPU天降至0.5GPU天。实验表明,MSA的synaptic diversity和MLP的synaptic saliency与模型性能高度相关。
摘要由CSDN通过智能技术生成

先贴一张流程图:


Abstract

研究背景:ViT已经在几个计算机视觉任务实现了很好的效果,其成就和架构设计高度相关,因此很值得提出Transformer Architecture Search (TAS)自动搜索更好的ViTs。

提出问题:当前的TAS方法非常耗时,且根据实验观察发现在CNN中使用的zero-cost proxies不能很好的推广到ViT搜索空间。

解决方法:先观察了如何以training-free的方式指导TAS进行并设计有效的training-free TAS范式。

  • 首先,观察了多头自注意力模块(MSA)和多层感知机(MLP)的属性是非常不同的,且MSA的synaptic diversity更明显的影响实验结果。
  • 其次,基于该观察,设计了一个DSS-indicator指标(包含synaptic diversity和synaptic saliency)来对ViT架构排序。通过DSS,评价结果和ViT的测试精度高度相关。

实验结果:极大提升了ViT架构的搜索效率,从24GPU days到0.5 GPU days。

1. Introduction

ViT的背景介绍:ViT最近在计算机视觉领域展示了巨大的竞争力,是一个很重要的研究热点。随着最近手工设计的ViT模型的涌现,Transformer Architecture Search (TAS)隆重登场并旨在以自动化的方式搜索多个ViT架构配置。

发现问题和分析:一方面,尽管one-shot NAS的范式已经在TAS领域中应用,但其仍需要大量地计算代价(大于24GPU days)去训练一个超网用于不同ViT架构的性能估计。另一方面,因为ViT搜索空间的范围比CNN的大很多,且ViT需要更多的训练epochs,所以one-shot-based TAS的搜索效率仍不能让人满意。

为了提升CNN搜索空间的搜索效率,一些proxies (e.g. GraSP, TE-score, NASWOT)等以zero-cost的方式评价CNN架构的排序。然而, CNN通常由卷积层组成,ViT由多头自注意力和多头感知机组成,这些差异会让直接应用zero-cost proxies至ViT产生风险。

因此,很有必要去观察探索zero-cost proxies应用到排序ViT网络的可能性并提升T

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值