【论文阅读笔记】VAR:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction


介绍

Code:https://github.com/FoundationVision/VAR
Paper:https://arxiv.org/abs/2404.02905


理解

核心提出“视觉自回归建模(VAR)”

  1. 方法创新
    提出"下一个尺度/分辨率预测"范式,区别于传统的光栅扫描"下一个令牌预测",将自回归(AR)学习应用于图像生成。
  2. 性能突破
    ImageNet 256×256 基准测试中:Fréchet 初始距离(FID)从 18.65 降到 1.73,初始分数(IS)从 80.4 提高到 30.2,推理速度提高 20 倍。
  3. 关键优势
    超越扩散变压器(DiT)
    在图像质量、推理速度、数据效率和可扩展性多维度领先
  4. 重要发现
    模型表现呈现幂律缩放律
    线性相关系数接近 -0.998
    类似大语言模型(LLM)的缩放特性
  5. 泛化能力
    展示零样本泛化能力,支持图像内画、外画和编辑任务
  6. 研究意义
    为视觉生成提供新范式,揭示 AR 模型在视觉领域的潜力,促进 AR/VAR 模型在视觉生成中的研究。

引言


图1 展示了 VAR 的生成效果。
在这里插入图片描述
从图二中看,自回归模型在 LLM 领域已经是一家独大,CV 领域也一直在努力开发大型自回归模型,希望能够模拟 LLM 出现可扩展性和可泛化性。现有的主流 AR 模型将连续图像离散为二维标记的网格,然后将其展平为一维序列进行 AR 学习。但类似的性能难以和扩散模型相比。

自回归建模需要定义数据的顺序。我们的工作重新考虑如何“排序”图像:人类通常以分层的方式感知或创建图像,首先捕获全局结构,然后捕获局部细节。这种多尺度、从粗到细的性质表明图像的“顺序”。同样受到广泛的多尺度设计的启发,我们将图像的自回归学习定义为图2©中的“下一个尺度预测”,不同于图2(B)中的传统“下一个令牌预测”。我们的方法首先将图像编码为多尺度标记图。然后自回归过程从 1×1 令牌映射开始,并以分辨率逐步扩展:在每一步,转换器根据所有先前的令牌预测下一个更高分辨率的令牌映射。我们将此方法称为视觉自回归 (VAR) 建模。
在这里插入图片描述
VAR直接利用类似GPT-2的变压器架构[66]进行视觉自回归学习。在 ImageNet 256×256 基准测试中,VAR 显着提高了其 AR 基线,实现了 1.73 的 Fréchet 起始距离 (FID) 和 35.2 的初始分数 (IS),推理速度快 20 倍(详见第 7 节)。值得注意的是,VAR超过了扩散变压器(DiT)——在FID/IS、数据效率、推理速度和可扩展性方面,如稳定扩散3.0和SORA。VAR 模型也表现出类似于 LLM 中所见的标度律。最后,我们展示了VAR在图像修复、外绘和编辑等任务中的零镜头泛化能力。总之,我们对社区的贡献包括:

  1. 一种新的视觉生成框架,使用多尺度自回归范式和下一个尺度预测,为计算机视觉的自回归算法设计提供了新的见解。
  2. VAR模型缩放定律和零样本泛化潜力的经验验证,它最初模拟了大型语言模型 (LLM) 的吸引人的特性。
  3. 视觉自回归模型性能的突破,首次使GPT风格的自回归方法在图像合成方面超过了强扩散模型
  4. 一个全面的开源代码套件,包括VQ标记器和自回归模型训练管道,以帮助推动视觉自回归学习的发展。

二、相关工作

大型自回归语言模型的性质

缩放定律和零样本泛化是人工智能的两个重要发现:标度律揭示了模型性能可以随着规模持续提升,而零样本泛化则意味着模型可以处理未被明确训练的任务。这两个特性让AI模型变得越来越强大和灵活,从语言模型成功扩展到计算机视觉等其他领域,标志着人工智能正在向更加智能和通用的方向发展

视觉生成

介绍了相关的扫描式自回归模型,掩码预测模型,扩散模型。


三、方法

以往的自回归模型将 VQVAE 压缩的离散 tokens 展平为一维离散 tokens,然后使用行主光栅扫描、螺旋或 z 曲线顺序。。一旦展平,他们就可以从数据集中提取一组序列 x,然后训练一个自回归模型,通过下一个令牌预测最大化下式中的似然性。
p ( x 1 , x 2 , … , x T ) = ∏ t = 1 T p ( x t ∣ x 1 , x 2 , … , x t − 1 ) p\left(x_{1}, x_{2}, \ldots, x_{T}\right)=\prod_{t=1}^{T} p\left(x_{t} \mid x_{1}, x_{2}, \ldots, x_{t-1}\right) p(x1,

### 多尺度运动表现回归模型概述 多尺度运动表现回归模型旨在通过不同尺度的时间窗口来捕捉和预测人体运动中的复杂动态特性。这类模型通常结合了多种机器学习技术和信号处理方法,能够有效应对动作捕捉、视频分析等领域的需求。 #### 技术原理 为了更好地理解多尺度运动表现回归模型的工作机制,可以将其分解为以下几个核心组件: - **多尺度特征提取**:利用不同的时间窗长度对原始序列数据进行分段处理,从而获得多个层次上的特征表示。这有助于捕获短时局部变化以及长时间趋势信息[^1]。 - **自回归建模**:借鉴视觉自回归建模(Visual Autoregressive Modeling, VAR)的思想,通过对历史帧之间的依赖关系建模,实现对未来状态的有效预测。这种方法特别适用于连续性的生物力学过程模拟。 - **深度神经网络集成**:采用卷积神经网络(CNN)、循环神经网络(RNN)及其变体如LSTM/GRU等先进架构作为基础框架,增强系统的表达能力和泛化能力。特别是对于复杂的时空关联性挖掘非常有利[^3]。 #### 实现方法 以下是构建一个多尺度运动表现回归模型的具体步骤说明: ```python import torch from torch import nn import numpy as np class MultiScaleMotionRegression(nn.Module): def __init__(self, input_dim=784, hidden_dims=[512, 256], output_dim=10): super(MultiScaleMotionRegression, self).__init__() # 定义多层感知机部分 layers = [] dims = [input_dim] + hidden_dims for i in range(1, len(dims)): layers.append(nn.Linear(dims[i - 1], dims[i])) layers.append(nn.ReLU()) self.mlp = nn.Sequential(*layers) self.fc_out = nn.Linear(hidden_dims[-1], output_dim) # 添加 CNN 层用于空间特征抽取 self.cnn_layers = nn.Sequential( nn.Conv1d(in_channels=input_dim//hidden_dims[0], out_channels=hidden_dims[0]*2, kernel_size=3), nn.MaxPool1d(kernel_size=2), nn.Flatten() ) def forward(self, x): batch_size, seq_len, _ = x.shape # 对输入序列应用不同大小的时间窗口采样 scales = [ F.avg_pool1d(x.permute(0, 2, 1), scale).permute(0, 2, 1) for scale in [seq_len // (i+1) for i in range(len(seq_len)//2)] ] features = sum([self.cnn_layers(scale_i.unsqueeze(-1)) for scale_i in scales]) hiddens = self.mlp(features.view(batch_size,-1)) outputs = self.fc_out(hiddens) return outputs # 创建实例并测试前向传播 model = MultiScaleMotionRegression(input_dim=96*2, hidden_dims=[128, 64], output_dim=1) test_input = torch.randn((32, 96 * 2)).unsqueeze(dim=-1) # 假设每秒采集96个关节角度值 output = model(test_input) print(output.size()) # 应输出 (batch_size,) ``` 此代码片段展示了如何创建一个多尺度运动表现回归模型的基础结构,并进行了简单的前向传递操作验证其功能正常工作。 #### 应用场景 此类模型广泛应用于体育科学、康复医学等多个领域内的人体姿态重建与行为识别任务中。例如,在运动员训练监控方面可以帮助教练员更精准地评估选手的技术水平;而在临床环境中则可用于辅助医生诊断患者是否存在异常步态等问题。 #### 局限性 尽管上述方案具备一定优势,但仍存在一些挑战需要克服: - 数据预处理阶段可能引入噪声干扰; - 需要大量标注良好的样本才能达到理想效果; - 当面对极端情况下的非线性变换时,现有算法的表现可能会有所下降。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值