Magic Fusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models——【论文笔记】

最新推荐文章于 2024-07-22 16:24:23 发布

我是浮夸

最新推荐文章于 2024-07-22 16:24:23 发布

阅读量895

点赞数 24

分类专栏：论文笔记文章标签：论文阅读人工智能图像处理

本文链接：https://blog.csdn.net/qq_45791526/article/details/135288002

版权

论文笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本论文是发表于ICCV 2023上的一篇论文

论文地址：ICCV 2023 开放获取存储库 (thecvf.com)

Github地址：MagicFusion/MagicFusion.github.io

一、Intorduction

当前开源社区贡献了很多优秀的预训练模型，这些模型在不同领域展示了令人印象深刻的能力，并且目前还在探索如何进行模型集成以提高性能。但很少有人将多个模型的优点结合起来从而达到更好的生成效果，于是，论文中提到了一种叫做显着性感知噪声混合（SNB）的方法，用于融合两个扩散模型，以实现更可控的生成。该方法通过整合两个模型的空间混合预测噪声，并信任它们在各自领域的优势来保留每个模型的优点。文中还介绍了该方法的实验和对三种应用的评估结果，并与其他方法进行了比较。

二、Related Works

这部分主要就是讲到，文本提到了文本引导的图像生成在图像生成领域中的重要作用，并介绍了以往工作主要集中在基于GAN的模型和小规模图像-文本数据集上。随着基于transformer的自回归模型的提出，越来越多的注意力被吸引到大规模训练上。去噪扩散模型的出现也显著提高了生成图像的保真度，并且稳定扩散是公开发布的，可以在不同数据集上微调。

然而，在模型集成方面的探索相对较少，但模型集成是一种强大的技术，可以提取多个模型的知识并提高性能，广泛应用于图像理解任务。在这项工作中，提出了在空间维度上集成不同的预训练扩散模型的方法，可以应用于各种场景。

三、Method

这里实际上就主要介绍了MagicFusion模型中提出的Saliency-aware Noise Blending (SNB)方法。SNB无需培训，可以在DDIM采样过程中完成[33]。此外，它可以自动对齐两个噪声空间的语义，而不需要额外的注释，如掩码。该方法通过将通用模型和专家模型的预测噪声进行融合，以实现更可控的图像生成。

具体来说，该方法首先利用“噪声到显著图”的模块获取显著图，所谓的显著图是指一种图像处理技术，用于确定图像中最引人注目的区域。在MagicFusion模型中，显著图是通过"Saliency-aware Noise Blending"方法生成的，该方法使用了扩散模型中的噪声和扩散过程。具体来说，MagicFusion模型中的"Noise to salience map"模块可以生成显著图，然后可以基于显著图生成显著性感知掩模，最后在噪声空间中根据掩模混合扩散模型。这些技术可以帮助生成器生成更加逼真的图像，同时保留原始文本的语义信息。

对于Noise to salience map的公式，实际上它是显著性图的生成公式，Blur（）用于平滑高频噪声，这可以消除局部干扰响应并利用相邻区域的相干性。Abs()就是获得绝对值，Abs（）中间的公式实际上是有条件预测和无条件预测之间的差异，因此文本条件中出现的对象和场景将被强调为大值。

然后，基于显著图生成显著性感知的掩模。在MagicFusion模型中，掩模生成的公式是argmax(Λg′, Λe′)，其中argmax表示在两个输入中选择具有最大值的元素。具体来说，Λg′和Λe′是通过Eqn. 4中的公式计算得到的两个归一化的显著图，分别对应于通用模型和专家模型。在掩模生成过程中，我们比较这两个显著图，并选择具有最大值的元素作为掩模（之所以选择具有最大值的元素作为掩模可以更好地指导噪声混合，以生成更加逼真的图像）。这个掩模将被用于指导噪声混合，以生成更加逼真的图像。

最后，根据掩模在噪声空间中对扩散模型进行融合，以生成最终的融合噪声。该方法的关键在于利用显著图和掩模来指导噪声的融合，以实现更加可控和创造性的图像生成。

四、Applications

这里论文中提出了三个应用，从而评估所提出的方法的有效性，分别是：

1)细粒度融合，即，融合通用模型和细粒度模型，实现复杂场景的细粒度生成。

2)再语境化，即，融合一般模型和DreamBooth模型可以对具有良好保留细节的特定对象进行重新上下文化。

3)跨域融合，即，将通用模型和卡通模型融合，使之联合收割机结合卡通模型生成复杂场景的创意优势和通用模型的真实感逼真度。

五、Results and Comparisons

这部分主要介绍了MagicFusion模型在三个应用场景中的实验结果和与其他方法的比较。通过比较得出，MagicFusion的性能是优越的，这里就不过多叙述。

我是浮夸

关注

24
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
1
评论
Magic Fusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models——【论文笔记】

Magic Fusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models——【论文笔记】
复制链接

扫一扫