本文提出的 CAN 模型 (Condition-Aware Neural Network) 是一种对图像生成模型添加控制的方法。CAN 可以通过动态操纵神经网络的权重来控制图像生成过程。作者在 ImageNet 图像生成任务以及 COCO 文生图任务上面测试了 CAN 方法。CAN 始终为扩散 Transformer 模型提供显著的改进,比如 DiT 和 UViT。
本文提出的 CAN 模型 (Condition-Aware Neural Network) 是一种对图像生成模型添加控制的方法。CAN 可以通过动态操纵神经网络的权重来控制图像生成过程。如图1所示,具体的方法是通过一个条件感知权重生成模块,这个模块的输入是条件 (比如类别标签,时间步),作用是为卷积/线性层生成权重。作者在 ImageNet 图像生成任务以及 COCO 文生图任务上面测试了 CAN 方法。CAN 始终为扩散 Transformer 模型提供显著的改进,比如 DiT 和 UViT。
图1:CAN 的输入是条件信息,然后动态生成神经网络的权重,与原始模型的权重混合
本文做了什么工作
-
引入了一个控制图像生成模型的新机制:通过操控权重来控制条件生成模型。
-
提出了条件感知神经网络,一种用于条件图像生成的控制方法。
-
CAN 可以用来提升图像生成模型的性能,大大优于之前的方法,而且对部署很有帮助。比如在 ImageNet 512×512 的图像生成任务,CAN 方法的 FID 比 DiT-XL/2 更小,且每个采样步骤的 MACs 少 52 倍,为边缘设备上的扩散模型应用提供支持。
效果图如下图2所示。
图2:在 ImageNet 512×512 图像生成任务中不同模型的结果对比
1 CAN:条件感知的扩散模型
论文名称:Condition-Aware Neural Network for Controlled Image Generation (CVPR 2024)
论文地址:http://arxiv.org/pdf/2404.01143.pdf
1.1 可控图像生成模型:从控制特征到控制权重
大规模图像和视频生成模型[1][2][3]在合成逼真图像和视频方面表现出了惊人的能力。为了将这些模型转换为人类的生产工具,关键步骤是添加控制。我们希望生成模型遵循我们的指令 (例如类别标签、文本、姿势等等[4]),而不是让模型随机生成数据样本。
一些先前的工作通过添加 Cross-Attention[5]或者 Self-Attention[6]将条件特征与图像特征融合。虽然使用的操作不同,但这些方法的共同之处是:通过特征空间操作来添加控制。同时,对于不同的条件 (Condition),神经网络权重 (卷积/线性层) 保持不变。
这项工作旨在回答以下问题:
-
是否可以通过操控图像生成模型的权重来控制图像的生成过程?
-
图像生成模型是否能够受益于这种新的