FlexiViT

原来是小歌啊

已于 2023-11-15 16:40:13 修改

阅读量262

点赞数

文章标签：人工智能

于 2023-11-15 16:19:27 首次发布

本文链接：https://blog.csdn.net/qq_42873279/article/details/134299028

版权

FlexiViT是一种训练ViT的方法，它允许模型在不同大小的patch上表现良好，无需重新训练。通过在训练过程中随机化patch大小并调整位置编码，FlexiViT能在多种计算预算下工作，适用于图像分类、图像文本检索等多种任务，其性能可与特定patch大小训练的ViT模型相媲美甚至超越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：FlexiViT: One Model for All Patch Sizes

时间：2023年

总结：
1、一个模型适配所有图块大小
2、提出 FlexiViT，希望在不增加成本的前提下，训练一个可以适应所有 Patch Size 的 ViT 模型。为了训练 FlexiViT，作者在训练过程中随机化 Patch Size，并对位置编码参数和 patch embedding 参数做 Resize 操作。这些简单的修改已经足以获得强大的性能，此外，作者借助 KD 获得更好的结果。

参考：知乎-FlexiViT：一个适应所有 Patch 大小的 ViT 模型

疑问：
1、 Patch Embedding 是如何处理的？（看源码）
2、CKA方法是什么方法？用CKA方法比较神经网络内部和跨模型表征的方法（）
3、神经架构搜索（NAS）是什么？
NAS的主要研究问题可以总体上分为3个部分：构建搜索空间，优化算法以及模型评估。
NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构。

文章目录

题目：FlexiViT: One Model for All Patch Sizes
摘要
1. 介绍
2. 方法
- VIT:
- FlexiViT
3. 补充

摘要

视觉Transformers通过将图像切片为patch来转换为序列。这些patch的大小控制着速度/精度的权衡，较小的patch以更大的计算成本导致更高的精度，但改变patch大小通常需要重新训练模型。在本文中，我们证明了在训练时简单地随机化 patch 大小会产生一组在广泛的 patch 大小范围内表现良好的权重，从而可以在部署时根据不同的计算预算调整模型。我们在一系列任务中广泛评估了我们称之为FlexiViT的最终模型，包括分类、图像文本检索、开放世界检测、全景分割和语义分割，得出的结论是，它通常匹配，有时甚至优于在其他相同设置中以单个补丁大小训练的标准ViT模型。因此，FlexiViT训练是对ViT的一个简单的改进，它可以很容易地将计算自适应功能添加到大多数依赖ViT骨干架构的模型中。
代码获得： github.com/googleresearch/big_vision