014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

最新推荐文章于 2024-04-18 20:42:11 发布

Artificial Idiots

最新推荐文章于 2024-04-18 20:42:11 发布

阅读量2.8k

点赞数 3

分类专栏：文章阅读笔记文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/126837838

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

High-Resolution Image Synthesis with Latent Diffusion Models

1. Introduction

本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)

主要做法是在VQGAN增强版做diffusion。

在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。

本文的主要贡献：

比VQGAN重建的效果更好，而且可以更有效地应用到高分辨率的生成。
LDE在不同的任务上有着比较好的表现。包括（unconditional image synthesis，inpainting，super-resolution）。而且比在像素空间的diffusion，采样的代价要更低。
相比于之前在隐空间的方法，LDE不需要对隐空间做太多的正则化，而且可以有高保真的重建效果。
可以以卷积的方式应用于多种条件生成任务。
实现了一种基于cross-attention的条件机制，可以应用于多模态的训练。

2. Method

2.1 Perceptual Image Compression

其实也就是模型的第一个阶段，将原始图像编码到隐空间，也就是一种压缩。为了避免隐空间方差过大，作者采用了两种改进的方式，第一种是加入了KL散度的约束作为正则化，类似于VAE，要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化，类似于VQGAN。

2.2 Latent Diffusion Models

这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。

在这里插入图片描述

2.3 Conditional Mechanisms

对于多模态的条件输入，先用一个编码器 $\tau_{\theta}$ 将条件信息 $y$ 比如文本，编码为中间的表示 $\tau_{\theta}(y)$ 然后与UNet的输出一起作cross-attention

在这里插入图片描述

3. 实验结果

首先尽管VQ正则化的重建效果比KL正则化略差，但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image，layout-to-image，semantic-to-image，super-resolution都能达到比较好的效果。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Artificial Idiots

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models阅读笔记
复制链接

扫一扫

专栏目录

Artificial Idiots CSDN认证博客专家 CSDN认证企业博客

码龄6年

60: 原创

9万+: 周排名

34万+: 总排名

5万+: 访问

: 等级

770: 积分

89: 粉丝

89: 获赞

13: 评论

208: 收藏

私信

关注

热门文章

分类专栏

最新评论

李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下
李沐《动手学深度学习》学习笔记（6）第一章预备知识第四节微分
WS_Change: 请问博主，这个f'h={h:.5f}是什么意思
005_SS_ Palette Image-to-Image Diffusion Models
道尔先生: 最后这个金色字体看瞎我眼
002_SSSS_ Denoising Diffusion Implicit Models
Artificial Idiots: 把减一换成减任意一个量就出来了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。