005_SS_ Palette Image-to-Image Diffusion Models

Artificial Genius

于 2022-07-02 20:49:26 发布

阅读量3.4k

点赞数 8

分类专栏：文章阅读笔记文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/125577478

版权

文章阅读笔记专栏收录该内容

37 篇文章

订阅专栏

本文介绍了一种基于ConditionalDiffusion的Image-to-Image转换基准模型。该模型通过在Diffusion模型的基础上引入条件信息实现了色彩还原、图像修复等任务，并对比了L1与L2损失对采样质量的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Palette: Image-to-Image Diffusion Models

本文是Conditional Diffusion的应用, 作者提出了基于Conditional Diffusion的 Image-to-Image新的baseline. 本文偏向于应用, 在理论上的创新性并不大.

1. Introduction

本文作者的工作主要有三个部分:

提出了基于Conditional Diffusion的Image-to-Image baseline
探究了训练Diffusion时, L1和L2损失, 以及self-attention层的作用
在四个任务, Colorization, Inpainting, Uncropping, JPEG decompression测试了新的baseline, 并使用了Frechet Inception Distance(FID), Inception Score(IS), Classification Accuracy(CA) of a pretrained ResNet-50 classifier, Perceptual Distance(PD) 四个指标来评测模型性能.

在这里插入图片描述

2. Conditional Diffusion

本文在理论方面并没有多少创新性, 做法也比较简单. Diffusion模型中的Unet输入是第t步的结果和对应步的噪声参数, 而Conditional Diffusion只是在输入中加入了条件信息x, 而处理的方法就是将加入的条件x与原来的输入concatenate起来.

在这里插入图片描述

而损失函数形式与Diffusion唯一的区别就在于输入多了个条件信息x.

作者做出的改进主要是对DDPM的Unet做了改进, 这个部分本文没有给出源码, 具体做了什么不甚了解.

3. 实验结果

作者在四个任务上测试了四种指标, 详细实验内容请参考原文.
值得一提的是, 作者测试了L1和L2损失对实验结果的影响.

在这里插入图片描述

得出的结论是: L1和L2损失得到结果的采样质量相似, 但是L2得到的结果会有更高的多样性, 而L1损失的结果则相对保守.

这里有一个实验细节, 也就是说作者在训练时, 前向过程的一系列噪声参数用的是(1e-6, 0.01) 2000步, 而采样过程则用的是(1e-4, 0.09) 1000步. 这个细节可以看出, 训练和采样可以有不同的步数, 不同的参数, 这是个之前没见过的发现.

Artificial Genius

博客等级

码龄7年

66
原创

227
点赞

358
收藏

138
粉丝

关注

私信

热门文章

分类专栏

最新评论

Computer Vision Arxiv Daily 2025.01.14
Artificial Genius: they use reference motion video to guide the generation of new video.
007_补充_ Pytorch 反向传播和Neural ODE的反向传播
m0_68024661: 你好，最后一页的S0为什么是负的呀
李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_45522297: 为什么我按照上面的三个步骤安装，就是用不了mxnet呢？每次提醒OSError: libcudnn.so.7: cannot open shared object file: No such file or directory
李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。