如何入坑 Diffusion方向？写出论文

最新推荐文章于 2024-07-10 11:32:19 发布

AI每天一点点

最新推荐文章于 2024-07-10 11:32:19 发布

阅读量818

点赞数 15

分类专栏：大模型深度学习计算机视觉文章标签：人工智能计算机视觉深度学习机器学习 diffusion stable diffusion 扩散模型

本文链接：https://blog.csdn.net/Java_college/article/details/139883997

版权

计算机视觉同时被 3 个专栏收录

27 篇文章 0 订阅

订阅专栏

大模型

19 篇文章 0 订阅

订阅专栏

深度学习

18 篇文章 1 订阅

订阅专栏

首先可以先看看普渡大学Stanley Chan老师写给本科生和研究生初学者的tutorial，通俗易懂(Chan et al.)。

论文：Tutorial on Diffusion Models for Imaging and Vision

然后可以看看Diffusion model的原论文，一共有三篇，再加上一篇总结：

1、Ho et al.写了一篇Denoising Diffusion Probabilistic Model(DDPM)，搞CV一般搞懂DDPM就差不多。这篇的想法并不是作者原创，而是来自于2015年斯坦福一个学物理的博士后(Sohl-Dickstein et al.)，最早提出diffusion的文章。DDPM的贡献在于把diffusion调出较好效果。一作是加州伯克利的Johnathan Ho，是伯克利明星老师Pieter Abbeel的学生。Ho之后在谷歌和VAE以及Adam优化算法的提出者Diederik P. Kingma合作了好多diffusion相关的文章。

论文：Denoising Diffusion Probabilistic Models

2、同时期Song et al.写了Noise Conditional Score Network(NCSN)，通过score matching的方式来估计数据分布概率密度的梯度。一作宋飏本科是清华数理基科班的，何恺明的系友。博士跟着斯坦福ai方向最厉害的老师Stefano Ermon读的。现在在Openai工作，未来会入职Caltech。

论文：Generative Modeling by Estimating Gradients of the Data Distribution

通过估计数据分布的梯度进行生成建模

3、然后Song et al.在这两篇的基础上用随机微分方程把Diffusion Model的理论框架统一，提出了Score-SDE。作者里同样有Kingma。

论文：Score-Based Generative Modeling through Stochastic Differential Equations

基于分数的随机微分方程生成模型

4、对这几篇很好的总结是谷歌Calvin Luo的工作(Luo et al.)，作者不仅对各种公式进行了汇总，还阐明了和VAE的关系。

论文：Understanding Diffusion Models: A Unified Perspective理解扩散模型:统一的观点

再进一步是后面的人针对前面出现的问题进行的改进：

1、Song et al.提出了DDIM，加速了diffusion采样速度。这是和宋飏在斯坦福的同组的Jiaming Song提出的，本科在清华贵系。

论文：Denoising Diffusion Implicit Models去噪扩散隐式模型

2、DPM-Solver(Lu et al.)用另一种方法改进了diffusion采样算法，这是清华朱军组的工作。有意思的是宋飏本科时期是和朱军老师合作科研的。

论文：DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 StepsDPM-Solver:一个用于扩散概率模型采样的快速ODE求解器，大约10步

3、Song et al.针对NCSN的各种问题提出了各种tricks，在这篇Improved Techniques for Training Score-Based Generative Models当中。这篇可以看成宋飏在自己NCSN工作之后的精益求精。

论文：Improved Techniques for Training Score-Based Generative Models用于训练基于分数的生成模型的改进技术

4、Nvidia在noise schedule上做改进，提出了EDM(Karras et al.)。很多人都用这篇的代码，因此看懂这个的代码可能就能更轻松地理解很多baseline的代码了。

论文：Elucidating the Design Space of Diffusion-Based Generative Models阐明基于扩散的生成模型的设计空间

再然后可以看看具体应用领域了！这个不同人有不同的关注点。

因为diffusion model的应用实在是太广了。如果想了解不同方面的应用总结，可以看看这篇综述(Yang et al.)，这是宋飏和北大崔斌组合作的工作。

论文：Diffusion Models: A Comprehensive Survey of Methods and Applications扩散模型:方法和应用的综合调查

我主要关注训练好的diffusion model有什么性质，如何将其当成一个强大的先验，应用到下游任务上。因此我介绍的应用可能有些侧重：

比如解反问题：改进diffusion sample算法来进行后验采样。Diffusion相较其他生成模型而言一大优势在于其采样算法能更好适用于下游任务，这篇文章便是开了这样一个新坑，从此反问题这一领域变成一大热门。在此之前人们大多通过求解优化问题的方法来解反问题。

论文：Diffusion Posterior Sampling for General Noisy Inverse Problems一般噪声反问题的扩散后验采样

比如Diffusion可解释性相关的问题，这篇的有趣之处在于发现了不同的diffusion model学到的数据分布与噪声分布的映射是相似的：

论文：The Emergence of Reproducibility and Generalizability in Diffusion Models扩散模型中再现性和概化的出现

比如Latent Diffusion(Vahdat et al.): 把encoder-decoder与diffusion process结合，在latent space上做文章。有了隐空间采样过程更快，能刻画非简单二维图片空间的分布，这个方法被很多生物化学的组采用。

论文：Score-based Generative Modeling in Latent Space潜在空间中基于得分的生成建模

当然还有工业界最火的Stable Diffusion, Sora, Dall-E等工程项目以及前沿技术如DiT, Video diffusion model, rectified flow, consistency model, Diffusion Schrödinger Bridge等，这里就不具体贴论文了。因为很多我仅仅是听说过没太细读，还有很多课要补。

除此之外我个人不太喜欢工程，但爱问为什么。因此对diffusion的各种理论解释很感兴趣，读了一部分这方面的论文：

1、Song et al.证明了score-matching loss和DDPM用的ELBO loss在某种意义上等价。又是宋飏的工作，果然清华出来的人就是厉害。

论文：Maximum Likelihood Training of Score-Based Diffusion Models基于分数的扩散模型的最大似然训练

2、谷歌的Ruiqi Gao和Kingma(又是Kingma)深入研究了ELBO加weighting的问题(Gao et al.)。

论文：Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation通过简单的数据扩充将扩散目标理解为ELBO

3、也有工作研究了为什么DDIM能在加快采样算法的同时保持较好的采样结果(Salimans et al.)。经过冗长的推导发现DDIM是probability flow ODE的一阶离散解。正如DDPM是Score-SDE的一阶离散解一样(很优美的对应)。有趣的是这篇文章的作者也有Jonathan Ho。

论文：Progressive Distillation for Fast Sampling of Diffusion Models用于扩散模型快速采样的渐进蒸馏

与此同时在实践层面，Huggingface提供专门的Diffusers库，各种模型各种scheduler集成得很到位，可以把代码跑来玩玩。

其实贴了这么多论文回头看，主要工作就来自两个地方：斯坦福Stefano Ermon组用随机微分方程的理论从连续的角度搭建了diffusion的理论以及具体实现。谷歌Kingma和他的同事从VAE的角度出发进行了各种补充，他们关注的diffusion的加噪过程是离散的，因此更为简洁，更好实现，数学要求低一些。

Diffusion Model看着理论框架很复杂，但实际上就是条件概率来回推。说了这么多我感觉初学可以只看看DDPM当中的算法，然后直接上手代码实践。具体推导啥的略过，回头需要的时候慢慢来补也行。如果想了解全貌的话，就看看第一篇tutorial。每个人都有自己的学习历程，我在这里仅仅是分享了自己的供参考，希望能帮助你少走弯路。

祝idea都work，paper多多。

不方便下载的，我已经下载好了，同时还有整理的研究生及SCI论文攻略合集，90%以上都有代码，这些都可以无偿分享给你

可以到我的工众号【学长论文指导】回复【211】自取哦！

论文资料包：1、SCI论文写作、投稿、修改助手、插图规范

2、SCI管理软件、英语写作辅助和润色、写作与画图必备神器

3、SCI 写作套路化模板（高级句型）

4、上千份八大主流神经网络及变体、大模型、AIGC等AI各方向论文及代码

5、写论文必备书籍

6、历年来及最新AI优秀顶刊论文合集

咨询【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、润色发刊】等论文辅导+kaggle带队拿牌+技术问题答疑+公开课直播

整理不易，欢迎大家点赞评论收藏！

手把手带你从做科研到论文发表，一条龙全方位指导！

避免各种常见or离谱的坑，顺顺利利学习，快快乐乐毕业~

0基础也能发论文吗? 导师放养？毕业压力？

找不到热点课题和方向、没有idea、没有数据集，实验验证不了、代码跑不通

没有写作基础、不知道论文的含金量，

高区低投、不清楚不了解完整的科研经验，

评职称、申博压力、自我高区位的追求都可以找我了解

AI每天一点点

关注

15
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
如何入坑 Diffusion方向？写出论文

1、Ho et al.写了一篇Denoising Diffusion Probabilistic Model(DDPM)，搞CV一般搞懂DDPM就差不多。这篇的想法并不是作者原创，而是来自于2015年斯坦福一个学物理的博士后(Sohl-Dickstein et al.)，最早提出diffusion的文章。DDPM的贡献在于把diffusion调出较好效果。一作是加州伯克利的Johnathan Ho，是伯克利明星老师Pieter Abbeel的学生。
复制链接

扫一扫