这篇文章简称为TF-TAS, 首次通过Zero Shot NAS方式实现 ViT (Vision Transformer) 结构搜索。
文章作者来自腾讯优图、厦门大学、鹏城实验室等机构,是2022年CVPR的一篇oral论文。
开源代码:https://github.com/decemberzhou/TF_TAS
目录
研究背景
ViT 已经在CV和NLP领域展现出了很优越的性能,但其性能和算力等仍然与模型结构息息相关,因此,研究人员们通过自动搜索的手段去寻找更好的ViT。
在此之前已经有一些通过NAS (Neural Architecture Search)的方式去搜索到性能表现更佳的ViT结构,但是仍然存在以下几方面问题:
- 模型搜索非常耗时,搜索效率不高
- 由于ViT网络结构与CNN的结构存在较大差异,导致上述方法无法直接移植到ViT结构到高效搜索中;
- 因此,有必要研究针对ViT高效搜索的zero-cost scor