FlexiViT: 谷歌手把手教你如何灵活切片

目录

欢迎关注『CVHub』官方微信公众号!

Title: FlexiViT: One Model for All Patch Sizes

Author: Lucas Beyer et al. (Google Research)

Paper: https://arxiv.org/pdf/2212.08013v1.pdf

Github: https://github.com/google-research/big_vision

太长不看版,果然还是延续谷歌的风格,创新不够,实验来凑。

废话不多说,直接上图,一图胜千言:

FlexiViT

顾名思义,FlexiViT,翻译过来不就是灵活ViT 嘛?

Ooo,那怎么体现灵活?我们先回顾下 Vision Transformers 的工作流程。

一句话总结就是,ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到Transformer网络进行训练和推理的一种神经网络架构。

本文的重点便是在研究这些小块块对性能的最终影响。通常来说:

  • 方块切的越小,精度会越高,但速度就变慢了;
  • 方块切的越大,精度会降低,但速度就上来了;

So,我们究竟是要做大做强,还是做小做精致?不用急,来自谷歌大脑的研究人员为你揭晓答案:成年人才做选择,老子大小通吃。

正经点,让我们切回来,古哥通过燃烧了数不尽的卡路里向我们证明了,在训练期间随机改变方块的大小可以得到一组在广泛的方块大小范围内表现良好的权重(泛化性能好)。

这结论有什么用?那便是使得在部署时大家可以根据不同的计算预算来调整模型。

通过在以下五大版图进行广泛的投资,可以清晰的发现收益率远超沪深300:

  • 图像分类
  • 图像-文本检索
  • 开放世界检测
  • 全景分割
  • 语义分割

为了照顾下你们这些散(韭)户(菜),古哥说你们可以将它任意添加到大多数依赖ViT骨干架构的模型来实现计算自由,即模型可以根据不同的计算资源调整自己的工作方式,从而获得更好的性能和效率。

说了这么多,怎么做?直接把代号都发给你了,明天早盘直接梭哈即可:

看到看到这里了,总不能白嫖吧?点个赞再友情转发下再走咯~~~

CVHub

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值