AIGC-Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models-论文＋代码精读-CSDN博客

本文链接：https://blog.csdn.net/hwjokcq/article/details/138199446

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

CVPR2023

论文链接:https://arxiv.org/abs/2311.17919
开源网站：https://dangeng.github.io/visual_anagrams/

多视图错觉

MOTIVATION

文章解决的问题是合成多视点光学幻觉图像，即在进行翻转或旋转等变换时改变外观的图像。
这类多视点光学幻觉因其挑战视觉感知的排列方式而长期吸引着感知学的学生和艺术家。
创造这些幻觉需要准确建模然后颠覆视觉感知，而现有方法通常依赖于对人类感知的显式模型。

CONTRIBUTION

We present a simple yet effective method for generating multi-view optical illusions using diffusion models.
We derive a precise description of the set of views that our method supports and provide empirical evidence that these views work.
We consider practical design decisions, crucial to optimizing the quality of generated illusions, and report ablations on our choices.
We provide quantitative and qualitative results, showcasing both the efficacy and flexibility of our method.

RELATED WORKS

Diffusion Models

扩散模型：扩散模型是一类通过迭代将噪声样本转换为数据分布样本的生成模型。这些模型通过估计噪声样本中的噪声并去除这些噪声来工作。扩散模型的一个显著应用是文本条件图像合成，其中模型不仅需要处理噪声图像，还需要处理文本提示。
文本条件扩散模型：这些模型利用分类器自由引导（classifier-free guidance）来提高生成图像的质量。通过结合无条件噪声估计和条件噪声估计，可以生成更高质量的图像。

Computational Optical Illusions

感知测试：光学幻觉作为理解人类和机器感知的试验场。Freeman等人通过局部应用具有连续变化相位的滤波器来创建恒定运动的幻觉。这种方法依赖于局部相位变化被解释为全局运动的观察。
混合图像：Oliva等人提出了一种方法，通过将一个图像的高频与另一个图像的低频混合，使图像在不同观看距离下改变外观。这种方法利用了人类感知的多尺度特性。
3D场景中的伪装：Chu等人通过重新纹理化场景中的物体并通过亮度约束来保持物体的显著特征，从而在场景中伪装物体。其他工作则在3D场景中从多个视点伪装物体。

Diffusion Illusions

扩散模型的艺术应用：艺术家和研究人员已经开始探索使用扩散模型创造幻觉的潜力。例如，Ugleh利用一个为生成QR码微调的模型来创建图像，这些图像的全局结构微妙地匹配给定模板图像。
文本指定的幻觉：与使用图像指定幻觉的方法不同，本文系统地研究了如何从现成的扩散模型零样本生成多视点幻觉，并使用文本而不是图像来指定幻觉。
Score Distillation Sampling (SDS)：Burgert等人使用SDS来创建与不同视图的提示对齐的图像。尽管这种方法理论上支持更广泛的视图，但使用SDS会导致显著降低的图像质量，并且需要显式优化，导致采样时间较长。
Latent Diffusion Models：Tancik的工作通过从不同视图和提示的交替噪声估计中采样，创建了旋转幻觉。尽管技术方法相似，但本文通过实验评估了多种类型的幻觉，并提供了哪些视图被支持的理论分析。

METHODS

Text-conditioned Diffusion Models

在这里插入图片描述
作者使用的是预训练的扩散模型。与此同时，为了在另一个输入（例如文本提示）上调节扩散模型，作者使用了classifier-free guidance。通过此方法将无条件噪声估计（通常通过传递空文本提示作为条件来获得）和条件噪声估计组合在一起：
$\epsilon_{t}^{\mathrm{CFG}}=\epsilon_{\theta}(\mathbf{x}_{t},t,\varnothing)+\gamma(\epsilon_{\theta}(\mathbf{x}_{t},t,y)-\epsilon_{\theta}(\mathbf{x}_{t},t,\varnothing))$
$\varnothing$ :表示空串的嵌入，也可以替换成负面提示（negative prompts）
$\gamma$ :是控制引导强度的参数，用于平衡两种噪声估计的贡献
$\epsilon_{\theta}(\mathbf{x}_{t},t,y)$ :神经网络估计的 $x_t$ 的噪声， $y$ 是一些条件，例如文本提示， $t$ 是扩散过程中的时间步长

Parallel Denoising（并行去噪）

并行去噪即同时对多个角度生成的图片降噪，以下是步骤归纳：

先采用一组 $N$ 个提示 $y_i$
- 每个提示与一个视图函数(view function) $v_i$ (·) 相关联（一一对应的关系）
- this function applies a transformation to an image.，These transformations may be, for example, an identity function, an image flip, or a permutation of pixels
然后对于给定的扩散模型 $ϵ_θ$ (·) 和部分去噪图像 $x_t$ ，针对每个视图 $v_i$ ，将来自不同视图的噪声估计组合成单个噪声估计 $\tilde{\epsilon}_{t}=\frac{1}{N}\sum_{i}v_{i}^{-1}\left(\epsilon_{\theta}(v_{i}(\mathbf{x}_{t}),y_{i},t)\right).$
- 我们使用每个视图 $v_i$ 对噪声图像 $x_t$ 进行转换，估计转换后图像中的噪声，然后将 $v_i ^{-1}$ 应用于估计噪声，以便将其转换回原始视图。
- 为了引入CFG，我们只需将估计值 $\epsilon_{\theta}(v_{i}(\mathbf{x}_{t}),y_i,v_t)$