High-Resolution Image Synthesis with Latent Diffusion Models笔记

小宋加油啊

已于 2023-05-19 11:15:11 修改

阅读量408

点赞数

文章标签：笔记深度学习计算机视觉

于 2023-05-19 10:47:12 首次发布

本文链接：https://blog.csdn.net/qq_45560230/article/details/130760685

版权

我是刚入门的小白，试着自己读论文不一定对望能理解

这篇论文产生问题的源头是什么

这篇论文解决了什么问题以及实现了什么功能
由于这些模型通常直接在像素空间中操作，因此强大DM的优化通常消耗数百个GPU天，并且由于顺序评估，推断是昂贵的。
应该就是解决了资源问题以某一种方法降低了计算的要求且达到复杂性降低和细节保留之间的接近最佳点，大大提高了视觉保真度
我们的潜在扩散模型（LDMs）实现了图像修复和类条件图像合成的新的最先进的分数，以及在各种任务上具有高度竞争力的性能，包括文本到图像合成，无条件图像生成和超分辨率，同时与基于像素的DM相比，显着降低了计算要求。

怎么解决的
为了在有限的计算资源上进行DM训练，同时保持其质量和灵活性，我们建议通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺点（参见图1B）。2）的情况。为了实现这一点，我们利用自动编码模型，该模型学习感知上等效于图像空间的空间，但提供显著降低的计算复杂性。

通过在模型架构中引入交叉注意层，我们将扩散模型转变为强大而灵活的生成器，用于文本或边界框等一般条件输入，并且可以以卷积方式进行高分辨率合成

这种方法的优点
这种方法提供了若干优点：
（i）通过离开高维图像空间，我们获得计算上更有效的DM，因为在低维空间上执行采样。
(ii)我们利用从其UNet架构继承的DM的归纳偏差[71]，这使得它们对具有空间结构的数据特别有效，因此减轻了对先前方法所要求的积极的、降低质量的压缩水平的需求
(iii)最后，我们得到了通用的压缩模型，其潜在空间可以用于训练多个生成模型，也可以用于其他下游应用，如单图像CLIP引导合成