Sora核心之一：可变时长、分辨率、尺寸（着重探讨NaViT）

猴猴猪猪

已于 2024-03-17 16:16:59 修改

阅读量669

点赞数 4

分类专栏： AIGC 文章标签：论文阅读 AIGC 多模态大模型人工智能计算机视觉 transformer

于 2024-03-02 12:26:45 首次发布

本文链接：https://blog.csdn.net/pku_langzi/article/details/136413328

版权

AIGC 专栏收录该内容

11 篇文章 6 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

NaViT是Google DeepMind提出的一种改进的Vision Transformer，能够处理任意分辨率和宽高比的图像。通过序列打包（sequence packing）技术，NaViT在训练期间使用可变分辨率，提高模型的灵活性和效率。它在多个视觉任务上表现出色，同时在推理时平衡性能和效率。NaViT的创新包括Masked self attention、Factorized & fractional positional embeddings以及Continuous Token dropping和Resolution sampling策略，这些改进使模型在计算成本上显著优于传统的ViT。

摘要由CSDN通过智能技术生成

Overview

NaViT

一、总览

题目: Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
机构：Google DeepMind
论文: https://arxiv.org/pdf/2307.06304.pdf
代码：无官方实现
任务: transformer基础backbone改进
特点: 适配任意分辨率以及长宽比
前置相关工作：Pix2Struct，FlexiViT
后续衍生工作：FiT