NaViT
一、总览
题目: Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
机构:Google DeepMind
论文: https://arxiv.org/pdf/2307.06304.pdf
代码:无官方实现
任务: transformer基础backbone改进
特点: 适配任意分辨率以及长宽比
前置相关工作:Pix2Struct,FlexiViT
后续衍生工作:FiT
二、方法Motivation与Overview
当我们在用CV模型处理图像时,会把图像调整为固定分辨率,但是往往这是一个次优的选择。然而诸如Vision Transformer(ViT)之类的模型能够灵活地进行序列建模,因此可以改变输入序列的长度。本文提出NaV