ICCV 2023 | 巡礼10篇论文,看扩散模型diffusion的可控生成

1、Adding Conditional Control to Text-to-Image Diffusion Models

805f358dbc45f3d44b0dbcbf0a5ca89c.png

经典再回顾!ICCV 2023最佳论文ControlNet,用于向大型预训练的文本到图像扩散模型添加空间条件控制。ControlNet锁定了就绪的大型扩散模型,并重用它们深层和稳健的编码层,这些层已经通过数十亿张图像进行了预训练,作为学习多样的条件控制的强大支撑。神经架构与“零卷积”(从零初始化的卷积层)相连,从零开始逐渐增加参数,确保没有有害的噪声会影响微调过程。

使用Stable Diffusion测试各种条件控制,如边缘、深度、分割、人体姿势等,使用单个或多个条件,有或没有提示。展示ControlNet的训练在小规模(<50k)和大规模(>1m)数据集上都很稳健。广泛结果表明,ControlNet可以促进更广泛的应用,以控制图像扩散模型。已开源在:https://github.com/lllyasviel/ControlNet

2、MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models

6d5c9d38c4d2a6aedcaedfce3a9d18e5.png

许多强大的基于文本引导的扩散模型,是在各种数据集上训练的。然而,鲜有关于组合这些模型以发挥它们的优势的探索。本研究提出一种称为感知注意噪声融合(SNB)的简单而有效的方法,可以使融合的文本引导扩散模型实现更可控的生成。

具体而言,通过实验证明,无分类器引导的响应与生成图像的显著性密切相关。因此,以一种感知性导向的方式混合两个扩散模型的预测噪声,以在它们的专业领域中信任不同模型。SNB不需要训练,并且可以在DDIM采样过程中完成。此外,它可以自动在两个噪声空间上对齐语义,而不需要额外的注释,如掩码。大量实验证明SNB在各种应用中的显著有效性。已开源在:https://github.com/MagicFusion/MagicFusion.github.io

3、Erasing Concepts from Diffusion Models

826e7eb499f5620c42e771cc9ffd650b.png

大规模扩散模型可能生成不受欢迎的输出(例如性暗示内容或受版权保护的艺术风格),研究从扩散模型权重中抹除特定概念的问题。

提出一种微调方法,从预训练的扩散模型中抹除某个视觉概念,只需提供风格的名称,并使用负向指导作为教师。将方法与之前删除性暗示内容的方法进行比较,并展示了其有效性,与Safe Latent Diffusion和经过审查的训练相媲美。

为评估艺术风格的去除效果,进行实验,从网络中删除了五位现代艺术家,并进行了用户研究,评估了被去除的风格在人类感知中的影响。与之前的方法不同,方法可以永久地从扩散模型中删除概念,而不是在推理时修改输出,所以即使用户可以访问模型权重,也无法规避。已开源在:https://github.com/rohitgandikota/erasing

4、Ablating Concepts in Text-to-Image Diffusion Models

beeb84f14e70176bb996ea0f41b4033c.png

大规模文本到图像扩散模型可生成具有强大组合能力的高保真度图像。然而,这些模型通常是训练在大量的互联网数据上,往往包含受版权保护的材料、许可的图片和个人照片。此外,它们被发现可以复制各种现实艺术家的风格或记住精确的训练样本。如何在不重新训练模型的情况下去除这些受版权保护的概念或图像?

为实现这一目标,提出一种高效的消除预训练模型中概念的方法,即阻止生成目标概念。算法学习将目标风格、实例或文本提示生成的图像分布与与锚定概念相对应的分布相匹配。这样,模型就不能根据其文本条件生成目标概念。实验表明,方法能够成功地阻止生成被消除的概念,同时保留与之密切相关的概念在模型中。

5、Editing Implicit Assumptions in Text-to-Image Diffusion Models

f4f80d581d4e524e731f06e38d3eddd0.png

文本到图像的扩散模型,在生成图像时往往做出一些隐含假设。尽管某些假设有用(例如,天空是蓝色的),但也可能过时、不正确或反映在训练数据中存在的偏见。因此,有必要在不需要明确用户输入或昂贵的重新训练的情况下对这些假设进行控制。

这项工作目标是编辑预训练的扩散模型中的某个隐含假设。提出方法(Text-to-Image Model Editing,TIME)接收一对输入:一个“源”模糊的提示,对于这个提示,模型做出一个隐含假设(例如,“一束玫瑰”),以及一个“目的地”提示,描述相同场景,但包含一个指定的期望属性(例如,“一束蓝色的玫瑰”)。TIME然后更新模型的交叉注意力层,因为这些层将视觉含义分配给文本token。通过编辑这些层中的投影矩阵,使源提示接近目标提示。方法非常高效,仅在不到一秒的时间内修改模型的2.2%参数。

为评估模型编辑方法,引入TIMED(TIME数据集),包含来自不同领域的147个源和目标提示对。实验(使用稳定扩散)表明,TIME在模型编辑方面取得成功,对在编辑过程中看不见的相关提示具有很好的泛化能力,并对不相关的生成产生了最小的影响。已开源在:https://github.com/bahjat-kawar/time-diffusion

6、Localizing Object-level Shape Variations with Text-to-Image Diffusion Models

2fbbbb56272888ccaba5fc3703dbb453.png

文本到图像模型,通常需要在大量生成的图像中筛选。文本到图像生成过程的全局性质,使用户无法将他们的探索限定在图像中的特定对象。

本文提出一种技术,用于生成形状特定对象的一系列变化的图像集合,从而实现对象级别的形状探索过程。创建可信的变化是具有挑战性的,因为它需要对生成对象的形状进行控制,同时保持其语义。在生成对象变化时,一个特殊的挑战是准确地定位应用于对象形状的操作。介绍了一种混合提示技术,通过在去噪过程中在不同的提示之间切换,来获得多种形状选择。

为定位图像空间的操作,提出了两种使用自注意力层和交叉注意力层的定位技术。此外还表明,这些定位技术在超出生成对象变化范围的情况下也是通用且有效的。广泛结果和比较证明方法在生成对象变化方面的有效性,以及定位技术的竞争力。已开源在:https://github.com/orpatashnik/local-prompt-mixing

7、Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis

e278487ba1cf4003dd5043925f239303.png

扩散模型的一个关键局限,生成图像与文本描述之间的准确度不高,如缺失对象、属性不匹配和对象位置不正确。造成这些不一致的一个关键原因是跨注意力在空间维度和时间维度上对文本的不准确处理。空间维度控制着对象应出现在哪个像素区域,而时间维度控制着在去噪步骤中添加不同级别的细节。

本文提出一种新的文本到图像算法,为扩散模型增加了对空时交叉注意力的明确控制。首先,用布局预测器来预测文本中提到的对象的像素区域。然后,通过将对整个文本描述的注意力与对该特定对象在相应像素区域的局部描述之间的注意力相结合来实施空间注意力控制。通过允许组合权重在每个去噪步骤中发生变化,并且通过优化组合权重来确保图像与文本之间的高准确度,进一步增加了时间注意力控制。

实验证明,与扩散模型为基础的基线方法相比,方法在生成图像时具有更高的准确度。已开源在:https://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attn

8、BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion

b563dc0b0eedca8cba8dec69a233100a.png

文本到图像扩散模型方面,研究人员主要研究了只用文本提示生成图像的方法。虽有些尝试用其他模态作为条件,但需大量配对数据,如边界框/遮罩图像对,且需精调训练。由于配对数据需要耗费时间和精力才能获取,并且受限于封闭集合,这可能成为在开放世界中应用的瓶颈。

本文针对最简单的用户提供条件的形式,如边界框或涂鸦,提出一种无需训练的方法来控制合成图像中的对象和背景,以便符合给定的空间条件。具体而言,本文设计了三种空间约束,即内部框、外部框和角点约束,并将其无缝地集成到扩散模型的去噪步骤中,不需要额外的训练和大量的标注布局数据。实验结果表明,所提出的约束可以控制图像中要呈现的内容和位置,同时保持扩散模型合成高保真度和多样的概念覆盖能力的能力。已开源在:https://github.com/showlab/BoxDiff

9、Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

6531d17802de4c9184fc6401491cd99d.png

近年来,扩散模型的进展在许多生成任务中取得了令人瞩目的里程碑,备受关注的作品如DALL-E2,Imagen和Stable Diffusion等。尽管领域正在迅速变化,但最近的新方法主要关注扩展和性能,而非容量,因此需要针对不同任务单独建模。

本文将现有的单流扩散流水线扩展为多任务多模态网络,命名为Versatile Diffusion (VD),用于处理文本到图像、图像到文本等多个流,并在一个统一模型中处理多种变化。VD的流水线设计实例化了一个统一的多流扩散框架,包含可共享和可交换的层模块,实现了跨模态的通用性,超越图像和文本。

广泛实验证明,VD成功实现了以下几点:a) VD胜过基线方法,并能够以具有竞争力的质量处理所有基本任务;b) VD实现了一些新的扩展,如风格和语义的解离、双重和多重上下文融合等;c) 本文的多流多模态框架在图像和文本上的成功可能会在扩散为基础的通用AI研究中激发更多的思考。已开源在:https://github.com/SHI-Labs/Versatile-Diffusion

10、FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

f8d346b48c7a8d58ad91bed8e68a9cc5.png

条件扩散模型的出色生成能力,在许多应用中受到广泛关注。然而,许多现有方法都需进行训练。这增加了构建条件扩散模型的成本,并且在不同条件下的转移不方便。一些现有方法试图通过提出无需训练的解决方案来克服这个限制,但大多数只能应用于特定类别的任务,而不能应用于更一般的条件。

本文提出一种无需训练的条件扩散模型(FreeDoM),用于各种条件。具体而言,利用现成的预训练网络,如人脸检测模型,构建时间独立的能量函数,指导生成过程而无需进行训练。此外,由于能量函数的构建非常灵活,适应各种条件,提出的FreeDoM比现有的无需训练方法具有更广泛的应用范围。

FreeDoM具有简单性、有效性和低成本的优势。实验证明,FreeDoM对各种条件有效,并适用于包括图像和潜码在内的各种数据域的扩散模型。已开源在:https://github.com/vvictoryuki/FreeDoM

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

不是一杯奶茶喝不起,而是我T M直接用来跟进 AIGC+CV视觉 前沿技术,它不香?!

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

3a334973d63091f414e4153a2dd784f5.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

  • 18
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值