FlexiViT

FlexiViT是一种训练ViT的方法,它允许模型在不同大小的patch上表现良好,无需重新训练。通过在训练过程中随机化patch大小并调整位置编码,FlexiViT能在多种计算预算下工作,适用于图像分类、图像文本检索等多种任务,其性能可与特定patch大小训练的ViT模型相媲美甚至超越。
摘要由CSDN通过智能技术生成

题目:FlexiViT: One Model for All Patch Sizes

时间:2023年

总结:
1、一个模型适配所有图块大小
2、提出 FlexiViT,希望在不增加成本的前提下,训练一个可以适应所有 Patch Size 的 ViT 模型。为了训练 FlexiViT,作者在训练过程中随机化 Patch Size,并对位置编码参数和 patch embedding 参数做 Resize 操作。这些简单的修改已经足以获得强大的性能,此外,作者借助 KD 获得更好的结果。

参考:知乎-FlexiViT:一个适应所有 Patch 大小的 ViT 模型

疑问:
1、 Patch Embedding 是如何处理的?(看源码)
2、CKA方法是什么方法?用CKA方法比较神经网络内部和跨模型表征的方法()
3、神经架构搜索(NAS)是什么?
NAS的主要研究问题可以总体上分为3个部分:构建搜索空间,优化算法以及模型评估。
NAS的原理是给定一个称为搜索空间的候选神经网络结构集合,用某种策略从中搜索出最优网络结构。



摘要

视觉Transformers通过将图像切片为patch来转换为序列。这些patch的大小控制着速度/精度的权衡,较小的patch以更大的计算成本导致更高的精度,但改变patch大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化 patch 大小会产生一组在广泛的 patch 大小范围内表现良好的权重,从而可以在部署时根据不同的计算预算调整模型。我们在一系列任务中广泛评估了我们称之为FlexiViT的最终模型,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是,它通常匹配,有时甚至优于在其他相同设置中以单个补丁大小训练的标准ViT模型。因此,FlexiViT训练是对ViT的一个简单的改进,它可以很容易地将计算自适应功能添加到大多数依赖ViT骨干架构的模型中。
代码获得: github.com/googleresearch/big_vision

总结:
在这里插入图片描述
FlexiViT 是一个标准 ViT 模型,在训练过程中会看到随机的 patch 大小,从而看到序列长度。补丁嵌入权重会根据每个补丁大小自适应调整大小,并且模型权重在所有补丁大小之间按原样共享。

1. 介绍

ViT 将图像切割成不重叠的 patch,并对从这些 patch 创建的标记执行所有计算。这种“补丁化”过程代表了与之前占主导地位的卷积神经网络(CNN)方法的重大转变,在该方法中,图像是使用小型局部且通常重叠的滤波器进行处理的。补丁化解锁了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值