CAN (Condition-Aware Neural Network)

本文介绍了一种新的图像生成模型控制方法——条件感知神经网络(CAN),通过动态调整权重来增强扩散Transformer模型。实验表明,CAN在ImageNet和COCO任务中表现出色,提供显著性能提升且计算成本低。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出的 CAN 模型 (Condition-Aware Neural Network) 是一种对图像生成模型添加控制的方法。CAN 可以通过动态操纵神经网络的权重来控制图像生成过程。作者在 ImageNet 图像生成任务以及 COCO 文生图任务上面测试了 CAN 方法。CAN 始终为扩散 Transformer 模型提供显著的改进,比如 DiT 和 UViT。

本文提出的 CAN 模型 (Condition-Aware Neural Network) 是一种对图像生成模型添加控制的方法。CAN 可以通过动态操纵神经网络的权重来控制图像生成过程。如图1所示,具体的方法是通过一个条件感知权重生成模块,这个模块的输入是条件 (比如类别标签,时间步),作用是为卷积/线性层生成权重。作者在 ImageNet 图像生成任务以及 COCO 文生图任务上面测试了 CAN 方法。CAN 始终为扩散 Transformer 模型提供显著的改进,比如 DiT 和 UViT。

图1:CAN 的输入是条件信息,然后动态生成神经网络的权重,与原始模型的权重混合

本文做了什么工作

  1. 引入了一个控制图像生成模型的新机制:通过操控权重来控制条件生成模型。

  2. 提出了条件感知神经网络,一种用于条件图像生成的控制方法。

  3. CAN 可以用来提升图像生成模型的性能,大大优于之前的方法,而且对部署很有帮助。比如在 ImageNet 512×512 的图像生成任务,CAN 方法的 FID 比 DiT-XL/2 更小,且每个采样步骤的 MACs 少 52 倍,为边缘设备上的扩散模型应用提供支持。

效果图如下图2所示。

图2:在 ImageNet 512×512 图像生成任务中不同模型的结果对比

1 CAN:条件感知的扩散模型

论文名称:Condition-Aware Neural Network for Controlled Image Generation (CVPR 2024)

论文地址:http://arxiv.org/pdf/2404.01143.pdf

1.1 可控图像生成模型:从控制特征到控制权重

大规模图像和视频生成模型[1][2][3]在合成逼真图像和视频方面表现出了惊人的能力。为了将这些模型转换为人类的生产工具,关键步骤是添加控制。我们希望生成模型遵循我们的指令 (例如类别标签、文本、姿势等等[4]),而不是让模型随机生成数据样本。

一些先前的工作通过添加 Cross-Attention[5]或者 Self-Attention[6]将条件特征与图像特征融合。虽然使用的操作不同,但这些方法的共同之处是:通过特征空间操作来添加控制。同时,对于不同的条件 (Condition),神经网络权重 (卷积/线性层) 保持不变。

这项工作旨在回答以下问题:

  1. 是否可以通过操控图像生成模型的权重来控制图像的生成过程?

  2. 图像生成模型是否能够受益于这种新的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值