Diffusion Models专栏文章汇总：入门与实战

置顶沉迷单车的追风少年

已于 2025-04-14 10:45:51 修改

阅读量3.8w

点赞数 83

分类专栏： Diffusion Models与深度学习深度学习-计算机视觉文章标签：深度学习 diffusion model 扩散模型 DDPM DDIM

于 2022-02-21 21:55:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895747/article/details/122847060

版权

Diffusion Models与深度学习同时被 2 个专栏收录

296 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

深度学习-计算机视觉

82 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文全面汇总了Diffusion Models的研究进展，包括理论基础、模型结构、应用案例、代码解读和最新成果，涵盖了从图像生成、视频生成到无监督任务的全方位探索。内容涉及Diffusion Models与深度学习、GANs、VAEs的对比，以及如何实现image-to-image转换、视频生成等。此外，还介绍了如何利用预训练模型快速进行科研任务和代码实践，帮助读者深入理解并掌握这一前沿技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AIGC算法工程师面试八股文

AIGC算法工程师-面试八股文-最新版

1、Diffusion Models扩散模型与深度学习(数学原理和代码解读)

这篇文章适合小白入门看，能快速了解diffusion models背后的物理背景、数学推导、核心思想、代码实现。

2、击败GANs的新生成式模型：score-based model(diffusion model)原理、网络结构、应用、代码、实验、展望

这篇文章适合小白入门，在上一篇文章的基础上，更加深入讨论：

会不会是下一个GANs？能否解决目前GANs遇到的问题？
和现有的生成式模型相比有哪些优点?哪些缺点？
目前的网络结构是怎样？
如何用代码实现？
常用的数据集有哪些？
常用的评价指标有哪些？
能应用到哪些领域？
遇到了哪些问题？
发展的瓶颈有哪些？
未来的发展会怎样？

3、为什么Diffusion Models扩散模型可以称为Score-based Models？

近两年diffusion models野蛮生长，出现了很多不同的命名方式：denoising diffusion probabilistic models、score-based generative models、generative diffusion processes、energy-based models (EBMs)等，其实他们核心思想都是一样的，这篇文章通过讨论diffusion models为什么可以称为分数匹配模型，能更深入理解扩散模型。

4、条件DDPM：Diffusion model的第三个巅峰之作

DDPM2020年诞生，短短一年的时间，模型上有两个巨大的改进，其中一个就是condition的引入，最近大部分DDPM相关的论文都会讨论这一点，有些文章称之为latent variable。和当年GAN的发展类似，CGAN和DCGAN的出现极大程度上促进了GAN的发扬光大，意义重大。

5、从VAE到Diffusion Models

前面几篇文章更多的在思考GAN和diffusion model之间的关系，VAE作为最经典的生成模型之一，本文从VAE出发，聊一聊VAE和diffusion model之间的爱恨情仇。

6、DiffuseVAE：完美结合VAE和Diffusion Models

生成式模型的根本任务是捕捉底层的数据分布，并学习以无监督的方式从数据的显式/隐式分布中生成新的样本。本文介绍DDPM最新的研究成果DiffuseVAE，解决低维潜在空间上生成样本质量差、采样速度慢等问题。

7、为什么Diffusion Models钟爱U-net结构？

通过前面的文章介绍，大家应该已经基本了解扩散模型的特点，细心的读者会有疑问，为什么现在绝大部分的diffusion models都是U-net结构呢？这个发源于医疗分割的网络结构，为何广受备受diffusion models生成式的喜爱呢？

8、使用DDPM实现三维点云重建

本文重点讨论点云三维重建的相关原理、应用、特殊的处理方法、与传统的DDPM的区别和联系。

9、2021年度最火Diffusion Models：用于图像编辑和text引导图像生成的GLIDE

2021年底OpenAI又推出重磅作品，基于Diffusion Models的图像编辑和text引导图像生成，短短两个月在github上收获了2k个star，要知道DDPM的开山之作开源两年也才区区300个star。GLIDE也为后来的更火的text-to-image任务DELLA·2奠定了基础，这篇博客就和读者们探讨一下这个2021年度最火Diffusion Models。

10、扩散模型Diffusion Models可以看成一种autoencoder自动编码器吗？

2019年开创性论文《Generative Modeling by Estimating Gradients of the Data Distribution》发表后，扩散模型相关论文如雨后春笋一般涌现，其实扩散模型可以看成一种自动编码器。

11、 Score-based Generative Model：一统DDPM和SMLD两大生成式模型

2019年宋博士提出了SMLD模型，2020年Jonathan Ho提出了DDPM，这两大生成式随即成为顶会宠儿。2021年，宋博士提出了score-based generative model，一统这两大极为相似的生成式模型。本文在系列文章《为什么diffusion model扩散模型可以称为score-based models？》的基础上，探讨这三种生成式模型之间的区别、联系、优缺点、应用领域等。

12、Diffusion Models和GANs结合

作为Diffusion Models最成功的前辈们：flow based models、VAEs、GANs，最近几个月已经有不少将diffusion models和这些经典模型结合的文章，本系列的前文已有介绍。今天介绍的是首次将GANs和diffusion models工作，是一种比较成功的GANs的思路，相同的结合方式迅速流行，给正在做这一方向的小伙伴重要参考与启示。

13、用Diffusion Models实现image-to-image转换

diffusion models诞生到现在，很多论文热衷于把diffusion models带到自己的领域用于生成，也有不少人醉心于用各种奇技淫巧优化采样过程，以改善diffusion models致命的缺点：生成速度太慢。而Palette的诞生意义不亚于pix2pix GANs、cycleGANs，能够实现图像着色、图像修复、图像剪裁恢复、图像解压缩(超分)等等任务。我们第一次发现，原来diffusion models不仅仅能用于生成，还能有这么多有趣的应用！

14、基于diffusion models的无监督Image-to-Image转化

上一篇文章介绍了Palette，对标的是pix2pix GANs，能够实现配对的image域转化。这篇博客介绍一种DDPM，对标cycleGANs，能够实现无配对image之间的域转化，可以轻松完成白天-夜晚转化、苹果-橘子转化、野马-斑马转化、照片去雾、老照片上色、图像修复、超分辨率重建等任务，并且在理论上第一次(2021年4月)提出类似于cycle diffusion models的结构。

15、Diffusion Models在超分辨率领域的应用

GANs在Super-Resolution超分辨率大显身手，取得了很多令人兴奋的成果。作为最先进的生成式模型DDPM，不仅成功挑战了这一任务，而且在各方面的性能达到了SOTA。这篇博客就介绍一下diffusion models如何完成超分任务、背后的原理和实现方法。

16、Video Diffusion Models：基于扩散模型的视频生成

扩散模型已经被广泛运用到图像生成、image-to-image转换、时间序列生成、3D点云生成、文本生成、音频生成等领域，谷歌研究院最新的研究成果成功将diffusion models运用到视频生成领域。

17、深入理解Conditional Diffusion Models：解读《On Conditioning the Input Noise for Controlled Image Generation》

我之前写了一篇博客《条件DDPM：Diffusion model的第三个巅峰之作》梳理了conditional diffusion models的发展脉络，总结了现在常用的条件使用方法。最近逛arxiv看到一篇最新的论文主打conditional diffusion models，和读者一起读一下这篇论文《On Conditioning the Input Noise for Controlled Image Generation with Diffusion Models》

18、DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

之前带大家读过《2021年度最火Diffusion Models：用于图像编辑和高质量图像生成的GLIDE》，最新的CVPR 2022上发表了对标的新工作，我们一起来品读一下这篇论文。

19、Diffusion Models扩散模型的通用框架

扩散模型经过近三年的高速发展，逐步走向成熟。其中典型的代表有DDPM、DDIM、Score-based等，如何将这些扩散模型用一个统一通用框架表示？英伟达研究院六月份发布了一份最新的研究成果成功解决这一问题，大有一统江湖的势头，本文和读者一起深入理解这一工作。

20、如何用Diffusion models做interpolation插值任务？——原理解析和代码实战

很多Diffusion models的论文里都演示了插值任务，今天我们讲解一下如何用DDIM/DDPM做interpolation任务，剖析原理，并给出代码讲解与实战。

21、如何画出diffusion models的扩散过程示意图？

很多diffusion models相关的论文都会画出扩散示意图，如果自己写扩散模型相关论文的时候也会遇到这个问题。这篇博客就手把手教大家如何画出每个时间步骤的扩散过程示意图。

22、解读最新ECCV 2022工作：组合式扩散模型

最近ECCV 2022放榜了，虽然还没有出paper list，但是可以预见会有大量的diffusion models相关工作。今天和大家一起阅读一篇新的diffusion models工作《Compositional Visual Generation with Composable Diffusion Models》

23、Text-to-Image with Diffusion models的巅峰之作：深入解读 DALL·E 2

DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型，是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。

24、无分类器指导的Classifier-free Diffusion Models技术

分类器的引入大大提升了扩散模型的生成质量(FID和IS指标)，但是分类器指导可以看上是一种梯度对抗引导，这就会引入生成对抗网络中存在的一些缺点。作者提出了一种混合了条件扩散模型的分数估计和联合训练的无条件扩散模型，样本的无条件可能性，同时增加了条件可能性，在生成质量上得到进一步的提升。

25、最新Diffusion Models条件生成研究成果：梯度引导法

去年我发布了一篇条件DDPM的博客《条件DDPM：Diffusion model的第三个巅峰之作》，梳理了“分类器引导”、“inference image”、“latent”三种常见的条件添加方式。今年最火的条件diffusion models当属梯度引导法，这篇博客梳理一下最新的条件扩散模型的研究成果。

26、详细解读Latent Diffusion Models：原理和代码

CVPR 2022中的一项新工作latent diffusion models引起了广泛关注，提出了两段式diffusion models能有效节省计算资源，latent attention技术为通用image-to-image任务打下基础，让人耳目一新，具有极强的借鉴意义和启发性，值得深度阅读。

27、详细解读PITI：开启diffusion models image-to-image新时代

最近微软亚洲研究院新出了一项工作，围绕着GLIDE，采用两段式微调的方法，在通用image-to-image模型上取得了非常好的效果。相比于之前的《用Diffusion Models实现image-to-image转换》更进一步。这篇文章就和读者一起深度解读图像翻译领域的最新力作！

28、深入解读：从DDIM到Improved Denoising Diffusion Probabilistic Models

之前的博客解读了《从DDPM到DDIM：深入解读《Denoising Diffusion Implicit Models》，我们理解了从DDPM到DDIM的演化和改进过程。而《Improved Denoising Diffusion Probabilistic Models》是diffusion models发展过程中重要的里程碑，深刻影响了后来的研究过程，值得我们详细理解阅读。

29、【ICLR 2023】Diffusion Models扩散模型和Prompt Learning提示学习：prompt-to-prompt

今年prompt learning提示学习和diffusion models扩散模型实在是太火了，最新的ICLR 2023的一项工作把两者结合了起来，取得了十分惊艳的效果！正好昨天代码刚刚开源，这篇博客就和大家一起解读一下原理与代码！

30、AI作画：十分钟快速搭建自己的text-to-image diffusion models

最近AI作画彻底火出圈，diffusion models的研究者也越来越多，就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客，手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion models。希望能有更多的人一起来玩diffusion models！

31、如何获取最新diffusion models多模态方向的科研进展？

我从2021年上半年开始做diffusion models，当时也只是圈内的研究者听说过有一个新的生成式模型好像还可以。没想到2022年的下半年，diffusion models火得一塌糊涂，特别是多模态方向，被stable diffusion的开源吸引了非常多的新玩家加入这一领域。可以说这一领域每天都有值得关注的新工作，如何获取最新的科研进展？千万别落伍！这篇文章详细介绍渠道，快收藏起来！

32、【ICLR 2023】详细解读DreamFusion：用二维diffusion models完成三维生成任务

ICLR 2023的第一轮rebuttal已经放榜，这次的ICLR出现了非常多的diffusion models论文，很多工作都非常有创意，值得详细解读。这篇要介绍的是google研究院出品的DreamFusion，这个工作取得了所有审稿人的accept肯定，无论是论文还是实验效果都非常优秀，能够出色地使用现在的预训练2D text-to-image完成3D text-to-3D任务。

33、由浅入深理解latent diffusion/stable diffusion(1)：写给初学者的图像生成入门课

关于如何使用stable diffusion的文章已经够多了，但是由浅入深探索stable diffusion models背后原理，如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章，和读者一起遨游diffusion models的世界！本文主要介绍图像生成的历史，研读经典，细数发展历程。

34、由浅入深理解latent diffusion/stable diffusion(2)：扩散生成模型的工作原理

关于如何使用stable diffusion的文章已经够多了，但是由浅入深探索stable diffusion models背后原理，如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章，和读者一起遨游diffusion models的世界！本文主要介绍扩散生成式模型的基本原理，stable diffusion models的前身latent diffusion models的基本原理。

35、由浅入深理解latent diffusion/stable diffusion(3)：一步一步搭建自己的stable diffusion models

关于如何使用stable diffusion的文章已经够多了，但是由浅入深探索stable diffusion models背后原理，如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章，和读者一起遨游diffusion models的世界！本文主要介绍带大家一步步搭建自己的stable diffusion models。

36、由浅入深理解latent diffusion/stable diffusion(4)：扩散模型的法律风险

扩散模型在学术界如火如荼地发展，但是生成模型本身就有很多法律风险，如果未经权利人许可下载原始数据生成模型，是否构成对原始数据版权的侵犯？谁拥有生成模型自动创建的萌字符图像的权利？如果模型自动生成的图像“不小心”与用于生成模型的原始数据之一相似，是否构成对原始数据版权的侵犯？

37、【ICLR 2023】详细解读DiffEdit：基于扩散模型的图像编辑革命性成果

ICLR 2023的第一轮rebuttal已经放榜，这次的ICLR出现了非常多的diffusion models论文，很多工作都非常有创意，值得详细解读。这篇要介绍的是DiffEdit，这个工作取得了所有审稿人的accept肯定，无论是论文还是实验效果都非常优秀，能够出色利用文本条件扩散模型进行语义图像编辑任务。

38、从DDPM到DDIM：深入解读《Denoising Diffusion Implicit Models》

DDIM发表在ICRL2021上，是DDPM重要的改进之一，能显著提高DDPM的样本质量、减少采样时间，并且已经被广泛应用到现在的Diffusion Models上。这篇博客和大家一起详细解读一下DDIM，认识这一伟大的模型。

39、SketchKnitter: 基于扩散模型的矢量化草图生成

这篇文章发表在ICLR2023上，是首个用扩散模型解决矢量化草图重建的工作，我是这篇论文的第一作者。虽然sketch赛道的关注度远没有image、video等多，感兴趣的小伙欢迎与我交流！

40、如何定制属于自己的stable diffusion？Dreambooth原理详解和代码实战

AIGC大模型(如stable diffusion models)的训练成本已经超过绝大多数人的承受范围，彻底沦为中大厂/科研大组的“御用品”，这也是大模型时代的必然趋势。如何利用已有的开源大模型，微调出属于自己的专有模型？如何定制化自己专属扩散模型？这些问题无疑让我们这些没有资源直接训练达模型的人感到兴奋！dreambooth这篇论文出现的非常早，去年就已经大火过。经过时间的沉淀，现在定制化自己的diffusion大模型基本只剩下Dreambooth、textual inversion、LORA和Hypernetworks四种方法。笔者会依次带大家一一探索这些方法，一起玩转属于自己的diffusion！

41、如何在手机端部署大型扩散模型？

部署扩散模型面临着两个棘手的挑战：参数过大和推理时间过长，因此目前想在手机端用上扩散模型看似“奢不可求”。最近谷歌研究院的最新一项研究研究了如何把端侧部署大型扩散模型的梦想变成现实，这篇博客就和大家一起学习一下。

42、详细解读Diffuser DreamBooth代码

之前的博客《如何定制属于自己的stable diffusion？Dreambooth原理详解和代码实战》详细解读了dreambooth，不过那篇博客的代码讲解部分主要基于mmagic，不过瘾。这篇博客讲解一下diffuser的drembooth的部分。

43、Diffusion models多模态经典论文：详细解读Sketch-Guided Text-to-Image Diffusion Models

我在博客《2023年Diffusion Models还有哪些方向值得研究(好发论文)？》当中多次提到了多模态，这也是Diffusion Models当下最火的方向之一。这篇博客和大家一起学习一下谷歌研究院出品的经典论文《Sketch-Guided Text-to-Image Diffusion Models》，借鉴背后融合多模态的手段和技巧。

44、Adapter Tuning：详细解读Parameter-Efficient Transfer Learning for NLP

大语言模型实在是太火了，各种技术日新月异，研究diffusion models的从LLMs中找一些研究灵感已经是基操了。当模型比较小的时候，微调全部参数还是可以的。但是现在的大预训练模型时代，微调所有参数不仅效果堪忧，对资源的消耗也非常恐怖，所以这就是做有效微调的初衷。为了研究清楚如何进行有效的大模型微调，我打算沿着Adapter Tuning——Prefix Tuning——Prompt Tuning——P-Tuning——lora的路线详细讲解一下，希望可以对做diffusion models的同学有所启发。

45、由浅入深理解Latent Diffusion/Stable Diffusion(5)：利用预训练模型快速开始自己的科研任务

从零开始训练一个stable diffusion大概需要16万美元和1个月的时间，这对于一般的科研工作者来说难以承受，所以如何利用预训练模型快速开始自己的科研训练是一个非常有价值的问题。这篇博客将演示如何利用预训练模型快速开始自己的科研任务，希望对大家有所帮助！

46、Image-to-Image任务的终结者：详解ControlNet原理与代码

condition diffusion是最火爆的应用方向，2023年效果最好的几种条件diffusion models，例如《详细解读PITI：开启diffusion models image-to-image新时代》、《用Diffusion Models实现image-to-image转换》基本终结了这一赛道，让diffusion models走入实际的工业生产中。但是效果最火爆的当属《Adding Conditional Control to Text-to-Image Diffusion Models》，也就是经常被提及的ControlNet。这篇博客详细解读一下原理和代码。

47、微调stable diffusion哪个部分才是最有效的？

最近一直在做stable diffusion微调方面的研究，因为stable diffusion模型非常大，一个非常关键的问题是微调哪个部分才是最有效的？是微调unet吗？是微调text encoder吗？这篇博客对这个问题做一些探索。

48、【CVPR2023】详细解读 Multi-Concept Customization of Text-to-Image Diffusion 论文和代码

lora、dreambooth、Textual Inversion等微调stable diffusion方法已经被广泛使用，最近cvpr2023的一篇新论文《Multi-Concept Customization of Text-to-Image Diffusion》在生成新的概念和组合不同的新概念上具有明显优势，除此之外作者还通过实验探索了快速微调的方法，这篇博客将详细解读这篇论文的原理和代码。

49、最强的扩散模型：详细解读SDXL: Improving Latent Diffusion Models forHigh-Resolution Image Synthesis

SDXL是当下最强大的扩散模型，高质量、高分辨率、高真实性大背后是哪些技术支撑？最先进的扩散模型做了哪些改进？这一讲详细解读一下SDXL背后的原理和技术。

50、深度解析：Stable Diffusion中negative prompt是如何作用的？

stable diffusion推理的时候可以用negative prompt(负面提示词)去除我们不想出现的元素，这种方法的背后原理是什么？如何用代码实现呢？这篇博客就深入探讨这个问题。

51、代码解析：Stable Diffusion中Style控制是如何作用的？

不少读者发现，在Stable Diffusion的Webui上都有风格控制的功能，特别是Stable Diffusion XL的Style控制效果非常好。这篇博客讲解一下背后的技术和代码实现。

52、原理和代码解读：用Diffusion Models高清图像修复(Image Inpainting)

在最近的Diffusion Models应用中，Image Inpainting+ControlNet/Lora等工作在模特衣服生成、家居场景重建等场景中得到了广泛的应用。这篇博客主要介绍Diffusion Models如何在修复高清图像的。

53、Relay Diffusion：霸占榜单的最强生成式模型

2021年Style Swin的成功击败所有对手登顶，在CelebA-HQ 256x256数据集测评上取得了最高的指标，整整两年无人撼动。最新的Relay Diffusion的出现，一举击败Style Swin取得了榜单第一。这篇博客详细介绍Relay Diffusion的原理，并给出一些博主自己的思考。

54、论文和源码解读：T2I-Adapter: Learning Adapters to Dig out More Controllable Ability

今天是中秋节，先祝读者们中秋节快乐！2023年初的时候，腾讯PCG就发布了T2I-Adapter这篇论文。由于同一时期额外条件控制的新论文很多，例如ControlNet、T2I等，所以博主当时并没有重点推荐这篇论文。经过时间的考验，T2I-Adapter越来越火，甚至在视频生成、3D生成等其他领域被广泛借鉴。这篇博客主要解读一下T2I-Adapter的论文和源代码。

55、Diffusion Models可控视频生成Control-A-Video：Video-ControlNet原理解读和代码实战

Diffusion视频生成的时间连贯性问题是可控视频生成问题最大的挑战。Control-A-Video提出的时空一致性建模法、残差噪声初始化法和首帧定型法能有效解决这一问题，非常值得我们借鉴。博主详细解读论文和代码，并给出一些自己的思考。

56、文生视频领域SOTA工作Make-A-Video：论文解读和代码赏析

2022年年底Meta AI提出了Make-A-Video，一年过去了依旧是文生视频领域的SOTA工作，在主流数据集上依旧保持着最先进的指标。论文利用了预训练的Text-to-Image模型扩展到Text-to-Video任务，大大降低了视频生成的门槛；论文中提出的伪三维卷积层和伪三维注意力层也被后来的研究广泛借鉴。这篇博客详细解读Make-A-Video的论文和源代码，并给出一些博主的思考和见解。

57、【Diffusion 视频生成】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Tune-A-Video提出了一个新的文本-视频任务：One-Shot视频生成，能够在视频对象编辑、背景编辑、风格转换、可控生成等领域取得了非常好的效果。这篇博客详细解读Tune-A-Video的论文和代码，希望能对做扩散模型视频生成的读者们有所帮助。

58、详细解读 VideoFactory：Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

VideoFactory提出了一种新颖的交换时空交叉注意机制来加强空间和时间之间的相互作用，并发布了目前最大的视频数据集，包含了130万个文本-视频对。这篇博客详细解读一下这篇论文的创新点，希望能对做扩散模型视频生成的读者有所帮助。

59、详细解读DALLE 3技术报告：Improving Image Generation with Better Captions

OpenAI是推动大模型创新的领头羊，最近发布的DALLE 3凭借着远超市面上其他图片生成模型的表现，再次火出圈。最近OpenAI官方发布了DALLE 3的技术报告《Improving Image Generation with Better Captions》。这篇博客详细解读这篇技术报告，揭示DALLE 3背后的秘密。

60、【CVPR 2023】Diffusion Models高分辨率长视频生成 Align your Latents

CVPR 2023年的工作《Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models》实现了高帧率高分辨率长视频生成，并在保持时间一致性上做了很多工作。这篇博客详细解读一下背后的原理，并总结一下值得借鉴的地方。

61、2024年Diffusion Models还有哪些方向值得研究(好发论文)？

笔者follow扩散模型的科研进展已经将近3年了，见证了diffusion从无人问津到炙手可热的过程。当下扩散模型还有哪些缺点？还有哪些需要改进的方向？还有哪些方向值得研究？还有哪些方向好发论文？不知不觉时间已经来到了2024年，一年前写的博客《2023年Diffusion Models还有哪些方向值得研究(好发论文)？》有些内容已经过时了，这篇博客大胆展望一下2024年扩散模型的发展方向。

62、Stable Diffusion的结构要被淘汰了吗？详细解读谷歌最新大杀器VideoPoet

视频生成领域长期被Stable Diffusion统治，大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层，学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限，但是都没有对业界带来特别有影响力的工作。最近谷歌出手了，拿出了Decoder-Only结构视频生成模型，堪称王炸！华为曾经出过Decoder-Only的模型(还被群嘲过)，但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成tokens组合在一起是多么具有想象力的事情！明年的ChatGPT-5也会是这样的形态吗？

63、解读vid2vid-zero：Zero-shot 视频编辑

论文《Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models》中首次提出了Zero-shot 视频编辑任务，开辟了一个新的领域。现在有越来越多的Zero-shot 视频编辑论文，乱花渐欲迷人眼，这篇博客先解读一下这篇开山论文。

64、【CVPR 2023】解读LFDM：Conditional Image-to-Video Generation with Latent Flow Diffusion Models

LFDM通过流预测器分解latent和mask映射到flow域，大幅度降低了视频合成的成本，并且是为数不多的image-to-video的工作，很多做法非常值得借鉴，这篇博客重点讲解一下这篇文章《Conditional Image-to-Video Generation with Latent Flow Diffusion Models》。

65、【CVPR 2022】解读 Controllable Animation of Fluid Elements in Still Images：光流法视频生成

用户输入箭头，就能让图像动起来，这是经典的Animating任务。CVPR 2022中的一篇经典论文《Controllable Animation of Fluid Elements in Still Images》使用光流法做这种image-to-video任务，很多做法值得借鉴，这篇博客详细这篇论文。

66、解读Stable Video Diffusion：详细解读视频生成任务中的数据清理技术

Stable Video Diffusion已经开源一周多了，技术报告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》对数据清洗的部分描述非常详细，虽然没有开源源代码，但是博主正在尝试复现其中的操作。这篇博客先梳理一下Stable Video Diffusion的数据清洗部分。

67、【论文汇总】Diffusion Models视频生成/视频编辑/可控视频生成/跨模态视频生成

本文总结了Diffusion Models视频生成领域相关的工作，目前共收录142篇，持续更新中。

68、解读DreamPose：基于Diffusion Models的模特视频生成

谷歌研究院联合英伟达提出了DreamPose，通过修改起点噪声融入姿态信息，并微调VAE-CLIP adapter注入图片信息，做到pose&image-to-video的效果。是少数扩散模型中image-to-video的工作，这篇博客详细解读一下这篇论文《DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion》。

69、解读VideoComposer：多模态融合视频生成

达摩院出品的VideoComposer，是Composer家族的重要成员，开辟了组合多种模态特征生成视频的先河。重要的是开源了推理代码和模型，利于后人研究。这篇博客详细解读一下VideoComposer论文原理。

70、Meta最新视频生成工具：emu video技术报告解读

去年Meta推出了make-a-video，过去了一年多仍然是视频生成领域的SOTA。最近Meta又推出了更强的视频生成模型EMU Video，刷新了多项指标。这篇博客解读一下背后的论文《EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning》。

71、【CVPR 2023】解读VideoFusion：基于噪声共享机制的视频生成

达摩院开源的VideoFusion是为数不多同时开源模型和推理代码的视频生成工作，通过设计噪声分解机制有效提高视频的时空连贯性，在一些关键指标上远超GAN-based方法和2022年谷歌的VDM。更重要的是，Diffusers库以此为基础，写了关键的两个视频生成基础类，堪称行业标准。这篇博客就详细解读一下这篇经典的论文。

72、【SIGGRAPH 2023】解读Rerender A Video：Zero-Shot 视频翻译任务

Video-to-Video是视频生成中非常火的任务，也是最有应用价值的方向。图形学顶会SIGGRAPH 2023有一篇经典论文《Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation》，其中关键帧翻译、跨帧约束等方法值得我们借鉴。这篇博客详细解读一下这篇论文。

73、ICLR 2024中Video Diffusion Models相关论文

最近ICLR 2024出分了，Video Diffusion Models没有想象中受欢迎(高分)，不过看审稿人和作者们互喷是一件多么有趣的事情！今日娱乐活动达成。

74、代码解读：Zero-shot 视频生成任务 Text2Video-Zero

上一篇博客《【ICCV 2023 Oral】解读Text2Video-Zero：解锁 Zero-shot 视频生成任务》解读了这篇论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。这篇论文的创新点比较多，含金量很高，而且开源了代码。所以这篇博客结合代码再深入理解一下。

75、解读Sketching the Future (STF)：零样本条件视频生成

基于草图的视频生成目前是一个基本无人探索过的领域，videocomposer做过一些简单的探索。Sketching the Future从零样本条件视频生成出发，出色的完成了这一任务。这篇博客就解读一下《Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models》。

76、【ICCV 2023 Oral】解读Text2Video-Zero：解锁 Zero-shot 视频生成任务

上一篇博客讲了Sketching the Future，里面大部分的方法和思路都来自于Text2Video-Zero。Text2Video-Zero开辟了zero-shot视频生成任务，除此之外，用运动动力学和跨帧注意力机制有效解决时间连贯性问题；Text2Video-Zero结合ControlNet可以在条件文生图领域得到非常好的效果，还能用于视频编辑领域。是一篇非常经典的论文，值得深度探讨。

77、解读文生视频大模型ModelScopeT2V技术报告

ModelScopeT2V是17B的文生视频大模型，由阿里巴巴达摩院发布，且模型和代码完全开源。当中提出的多层时空机制和多帧训练法非常值得借鉴。这篇博客详细解读一下ModelScopeT2V背后的技术。

78、【NeurIPS 2023】多模态联合视频生成大模型CoDi

目前视频生成的大部分工作都是只能生成无声音的视频，距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型，可以同时生成带有音频的视频，距离真正的视频生成更近了一步。相信在不远的将来，可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。

79、文生视频领域SOTA工作 Show-1：论文和代码解读

最近的text-to-video的论文Show-1在MSR-VTT测评数据集上取得了FVD和CLIPSIM指标上的第一名，FID指标上的第二名。采用混合模型的方法，结合了基于像素的VDM和基于潜在空间的VDM进行文本到视频的生成，不仅能取得很高的生成指标，还能大大降低推理资源消耗。这篇博客详细解读一下这篇论文和代码。

80、如何量化Diffusion Models？

模型量化作为常用的模型小型化技术，在大语言模型、搜广推模型上取得了巨大的成功，但是在Diffusion Models为代表的视觉生成模型上尚处于探索阶段。在CVPR2023、ICLR 2023、ICML 2023上新上架了不少关于量化Diffusion Models的论文，这篇博客就一并总结相关的技术，希望能对读者们有所启发。

81、视频生成的路线之争：基于LLMs 和基于SD 的技术路线孰优孰劣？

在 AI 领域，近年来各个子领域都逐渐向 transformer 架构靠拢，只有视觉生成领域一直以 diffusion 结构作为主流方向，但是近年来谷歌、Meta、华为等大厂都在尝试使用基于LLMs的结构完成视觉生成任务。相比于趋于成熟的图像生成任务，视频生成任务是当下最火爆最具探索意义的方向。那么视频生成的最终路线还会由SD统治吗？基于LLMs的技术路线是否能颠覆基于SD的技术方案？这两种技术方案各自有哪些优点和缺点？

82、【ICLR 2024】解读MotionDirector：双路径LoRAs架构解耦外观和运动

在stable video diffusion论文中提起过Motion LoRA控制镜头的移动，其实这个Idea在ICLR 2024的论文《MotionDirector: Motion Customization of Text-to-Video Diffusion Models》当中就有被提出。这篇博客就和读者一起解读这篇论文。

83、解读2023年最火的视频生成模型 AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models without

2023年已经悄然过完，是时候盖棺定论了。这一年视频生成取得了长足的发展，特别是下半年进入了成果井喷的阶段，谷歌、Meta、阿里等很多大厂都发布了自己的研究成果。但是AnimateDiff作为在SD WebUI中最火的视频生成插件，收到了最多的关注，当之无愧是2023年最火的视频生成模型，这篇博客就想洗解读一下《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》这篇论文。

84、详细解读腾讯视频生成代表作：VideoCrafter2 Overcoming Data Limitations for High-Quality Video Diffusion Models

现在国内各个互联网大厂在视频生成领域的竞争相当激烈，腾讯的代表作当属VideoCrafter系列了。从2022年的Make-A-Video开始，学术界对视频生成的共识是T2I模型提供内容生成能力，时间模块提供运动能力，视频生成的难点在于运动能力的学习。这一观点在AnimateDiff中达到顶峰。然而在VideoCrafter2在论文中通过大量的对比实验，证明了微调空间层的优越性。这篇博客详细介绍这篇腾讯视频生成的代表作。

85、解读谷歌视频生成模型代表作：Lumiere A Space-Time Diffusion Model for Video Generation

前段时间谷歌发布了基于LLMs的视频生成模型VideoPoet，这种信仰Transformers的做法就很Google。大家都以为2024年视频生成会是LLMs和SD两条路线之争，但是谷歌很快就发布了基于SD的视频生成模型Lumiere，这波直接偷家了？这篇博客详细解读Lumiere的改进点和带给我们的启示。

86、为什么说 2023 年是 AI 视频生成的突破年？2024 年的 AI 视频生成有哪些值得期待的地方？

2023年是 AI 视频生成的突破年，AI视频已经达到GPT-2级别了。去年我们取得了长足的进步，但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来？

87、详细解读上海人工智能实验室视频生成代表作PIA：Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image

上海人工智能实验室open-mmlab在开源AIGC领域推出过很多良心开源项目，在视频生成时代，open-mmlab推出了自己的代表作《PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models》，能够实现Text+Image-to-Video，并且能够支持很多个性化风格的生成。这篇博客就详细解读一下PIA背后的原理和实现代码。

88、解读OpenAI视频生成模型Sora背后的原理：Diffusion Transformer

OpenAI最近推出的视频生成模型Sora在效果上实现了真正的遥遥领先，很多博主都介绍过Sora，但是深入解读背后原理的博客却非常少。Sora的原理最主要的是核心模型主干《Scalable Diffusion Models with Transformers》和训练不同尺寸视频方法《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》。这篇博客详细解读Diffusion Transformer结构，一起揭开Sora神秘的面纱。

89、解读电影级视频生成模型 MovieFactory

MovieFactory是第一个全自动电影生成模型，可以根据用户输入的文本信息自动扩写剧本，并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》

90、深度解读：如何解决Image-to-Video模型视频生成模糊的问题？

目前Image-to-Video的视频生成模型，图片一般会经过VAE Encoder和Image precessor，导致图片中的信息会受到较大损失，生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码，讲解如何解决Image-to-Video模型视频生成模糊的问题。

91、CVPR 2024中有哪些值得关注的视频生成和视频编辑方向的论文？

轰轰烈烈的CVPR 2024所有accept paper已经全部公开，随着Sora的爆火，视频生成和视频编辑是目前计算机视觉最火热的方向，受到了很多人的关注。这篇博客就整理盘点一下有哪些值得关注的视频生成和视频编辑方向的论文？值得做这个方向的小伙伴收藏学习。

92、解读视频生成模型Latte：开源版Sora

OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目，上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte，堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte，并从中窥探Sora的神秘面纱。

93、详细解读ControlNet作者最新力作：透明图层的生成模型LayerDiffusion

ControlNet的作者Lvmin Zhang的新作品LayerDiffusion，可以用于生成四通道带有透明图层的图片，这对于设计和落地是巨大的利好，因为业务场景下会有很多背景替换、人物替换的需求，从此告别抠图！这篇博客详细解读背后的原理，并解读代码和复现实验。

94、总结目前开源的视频生成/视频编辑大模型

随着Sora的爆火，视频生成和视频编辑受到了越来越多的关注。这篇博客总结一下目前开源的视频生成和视频编辑的大模型，并分析他们各自的优缺点，以及在自己进行科研任务或者工作中应该如何选用对应的开源模型，希望能给从事这一领域研究和使用的小伙伴们帮助。

95、视觉算法岗(AIGC方向)求职经验分享

博主的个人求职经验分享，原载于同名知乎专栏(24届视觉算法岗(AIGC方向)秋招经验分享 - 知乎)，希望对读者们有所帮助。

96、详细解读字节跳动视频生成模型StoryDiffusion：连环画创作和长视频生成

最近字节跳动提出了一项关于特征一致图像生成的工作StoryDiffusion，可以生成一系列特征主题相关的图像，还可以扩展成具有时间一致性的帧序列，从而组成长视频。这篇博客火速解读这篇最新的工作，包括论文和代码。

97、条件扩散模型中无分类器指导(Classifier-free Guidance)为什么比有分类器指导(Classifier Guidance)更好？

之前在博客《条件DDPM：Diffusion model的第三个巅峰之作》和《无分类器指导的Classifier-free Diffusion Models技术》中讨论了分类器引导作为经典的条件引导方法在Diffusion Models中的应用。有读者私信我问：条件扩散模型中无分类器指导(Classifier-free Guidance)为什么比有分类器指导(Classifier Guidance)更好？为什么会一直流行至今，成为条件扩散模型的标准做法？这篇博客在前两篇博客的基础上再深入解析。

98、Data-Juicer：阿里巴巴荣誉出品的大模型数据清洗框架

如何优雅地进行大规模数据清洗是一门艺术，特别对于大模型，数据的质量是决定模型成功最关键的因素之一。阿里巴巴最近开源了一项专门针对大语言模型和视频生成大模型的数据清洗框架，值得关注！

99、深入解读：如何解决微调扩散模型时微调数据集和训练数据集之间的差距过大问题？

在微调扩散模型的时候经常会遇到微调数据集和训练数据集之间的差距过大，导致训练效果很差。在图像生成任务中并不明显，但是在视频生成任务中这个问题非常突出。这篇博客深入解读如何解决微调扩散模型时微调数据集和训练数据集之间的差距过大问题？

100、ECCV2024中有哪些值得关注的扩散模型相关的工作？

ECCV2024中有哪些值得关注的扩散模型相关的工作？

101、使用Diffusion Models进行街景视频生成

街景图生成相当有挑战性，目前的文本到视频的方法仅限于生成有限范围的场景的短视频，文本到3D的方法可以生成单独的对象但不是整个城市。除此之外街景图对一致性的要求相当高，这篇博客介绍如何用Diffusion Models执行街景图生成。

102、视频扩散模型版本DreamBooth：详细解读MotionBooth

Dreambooth、LoRA、Adapter是图像扩散模型微调的三剑客，在之前的博客中详细解读过原理和代码。现在来到了视频生成的时代，本篇博客介绍微调视频扩散模型的利器，对标DreamBooth的MotionBooth。

103、【ICLR 2025】详细解读字节跳动视频生成论文 CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook

轰轰烈烈的ICLR 2025拉开序幕，由于是Open Review机制，很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。

104、使用Diffusion Models实现相机姿态估计

估计相机姿态是三维重建的一项基本任务，特别是在稀疏视图下，准确地估计出相机姿态非常困难，这篇博客介绍一种基于Diffusion Models的相机姿态估计方法，可以完美完成这一任务。

105、扩散模型和表示学习(Diffusion Models and Representation Learning)

扩散模型是各种视觉任务中流行的生成建模方法，引起了人们的广泛关注。它们可以被认为是自监督学习方法的一个独特实例，因为它们独立于标签注释。这篇博客讨论扩散模型与表征学习之间的相互作用、数学基础，流行的去噪网络架构和指导方法，并详细介绍了与扩散模型和表示学习相关的各种方法。

106、使用SVD(Stable Video Diffusion)执行视频插帧任务

使用生成式模型完成视频插帧任务相比于传统的方法有很大的优势，可以完成大运动幅度和更好的流畅性插帧任务。这篇博客介绍如何用目前最流行的视频生成开源模型SVD完成视频插帧任务。

107、ACM MM 2024中有哪些值得关注的Diffusion Models相关的论文？

ACM MM 2024作为多模态领域的顶级会议，已经放出所有接受的论文。这次的MM又是Diffusion Models的盛会，非常多值得关注的最新论文，这篇博客将一一介绍。

108、朝花夕拾：多模态图文预训练的前世今生

时间来到2024年，多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠，本文的时间线从2019年到2022年，从BERT横空出世讲到ViT大杀四方，再到MLLM大放异彩，全面梳理一下多模态图文预训练的前世今生。

109、详细解读Movie Gen(0)：核心网络结构

Meta最近重磅发布了视频生成30B的基础模型Movie Gen，长达93页的技术报告中干货满满，博主将详细解读Movie Gen的核心网络结构、个性化视频微调方法、视频编辑等方面。虽然大部分人没有直接预训练30B模型的机会，但是可以从中获取很多值得借鉴的经验。

110、详细解读Movie Gen(1)：数据集清洗方法

Meta最近重磅发布了视频生成30B的基础模型Movie Gen，长达93页的技术报告中干货满满，博主将详细解读Movie Gen的核心网络结构、个性化视频微调方法、视频编辑等方面。虽然大部分人没有直接预训练30B模型的机会，但是可以从中获取很多值得借鉴的经验。

111、详细解读Movie Gen(2)：个性化视频训练

Meta最近重磅发布了视频生成30B的基础模型Movie Gen，长达93页的技术报告中干货满满，博主将详细解读Movie Gen的核心网络结构、个性化视频微调方法、视频编辑等方面。虽然大部分人没有直接预训练30B模型的机会，但是可以从中获取很多值得借鉴的经验。

112、详细解读 CVPR2024：VideoBooth: Diffusion-based Video Generation with Image Prompts

文本驱动的视频生成正在迅速取得进展。然而，仅仅使用文本提示并不足以准确反映用户意图，特别是对于定制内容的创建。个性化图片领域已经非常成功了，但是在视频个性化领域才刚刚起步，这篇博客讲解CVPR2024一篇经典的论文《VideoBooth: Diffusion-based Video Generation with Image Prompts》。

113、详细解读腾讯人像可控生成框架Parts2Whole From Parts to Whole: A Unified Reference Framework for Controllable Human

最近在可控人类图像生成方面的进展导致了使用结构信号(例如，姿势，深度)或面部外观的零拍摄生成。然而，以人类外表的多个部分为条件生成人类图像仍然具有挑战性。为了解决这个问题，腾讯&北航提出了Parts2Whole，这是一个新的框架，用于从多个参考图像(包括姿势图像和人体外观的各个方面)生成定制肖像。

114、【ICLR 2025】谷歌提出离散扩散模型精确编辑方法

离散扩散模型在图像生成和掩码语言建模等任务中取得了成功，但在可控内容编辑方面面临局限性，当前方法无法实现对离散数据的灵活编辑和准确重构。最近谷歌提出离散扩散模型的在精确内容控制方面的研究，值得做内容编辑生成方向的读者们关注。

115、训练Diffusion Models节省显存的五个常用技巧(附代码)

随着Diffusion视频生成模型的兴起，模型越做越大，计算资源显得愈发珍贵，很多时候感觉A100都已经不够用了。本篇博客讨论在训练Diffusion Models的时候一些常用的节省显存技巧，不涉及内存切片/模型切片等知识。

116、表征对齐在训练DiT模型中的重要性

训练过DiT模型的读者们肯定有所体会，相比于UNet模型训练难度大了很多，模型不仅很难收敛，而且非常容易训崩，其中一个很重要的原因是没有进行表征对齐！这篇博客详细介绍表征对齐在训练DiT模型中的重要性。

117、基于DiT模型的视频风格转换 StyleMaster: Stylize Your Video with Artistic Generation and Translation

基于UNet风格迁移的工作非常多，但是专门做视频风格迁移的论文并不多，基于DiT模型的风格迁移的工作更是凤毛麟角。快手刚发布了一篇工作《StyleMaster: Stylize Your Video with Artistic Generation and Translation》，希望能给做这一领域的读者们一些启发。

118、原理&代码详细解读：一行代码增强HunYuan/CogVideox视频生成的利器Enhance-A-Video

无需后训练即可增强当下所有DiT-based视频生成模型的效果，并且只需要插入一行代码，非常方便。现有的工作流已经被广泛使用，结果表明非常香！这篇博客就深入解读Enhance-A-Video的代码和原理。

119、使用Diffusion Models进行图像超分辩重建

图像超分辨率重建是一个经典CV任务，其实LR（低分辨率）和 HR（高分辨率）图像仅在高频细节上存在差异。通过添加适当的噪声，LR 图像将变得与其 HR 对应图像无法区分。这篇博客介绍一种方式巧妙利用这个规律使用Diffusion Models进行图像超分辩重建任务。

120、代码实战：基于InvSR对视频进行超分辨率重建

上一篇博客《使用Diffusion Models进行图像超分辩重建》中讲解了InvSR的原理，博主实测的效果是非常不错的，和PASD基本持平。这篇博客就讲解如何利用InvSR对视频进行超分辨率重建。

121、详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

2025年low-level领域继续被Diffusion Models“青春风暴”，这篇博客给大家带来字节跳动基于DiT的视频超分模型SeedVR，论文作者曾经出品过Upscale-A-Video、Codeformer等经典超分作品，这篇博客非常值得学习。

122、【SIGGRAPH 2025】详细解读3D点云控制视频生成论文 Diffusion as Shader: 3D-aware Video Diffusion for Versatile

学术届的视频生成逐渐进入CogVideox5B时代，这次博主给大家带来投稿至图形学顶会SIGGRAPH 2025的论文《Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control》，是一篇基于CogVideox5B的3D点云控制的工作，效果很赞，思路也有很多值得借鉴的地方。

123、基于CogVideoX的视频超分技术

上周博主解读了字节的SeedVR《详细解读AIGC视频超分/修复技术 SeedVR Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration》，这个工作并不开源。这篇博客解读一个开源的基于CogVideox视频超分工作，效果很赞。

124、详细解读多人脸ID视频生成技术 Ingredients: Blending Custom Photos with Video Diffusion Transformers

单个人脸ID控制视频生成的论文很多，效果也很不错。但是多个人脸ID控制视频生成的工作很少，基于DiT的工作更是凤毛麟角。这篇博客详细解读多人脸ID视频生成技术 Ingredients: Blending Custom Photos with Video Diffusion Transformers

125、论文解读：上海交大最新论文基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR

尽管扩散模型在图像生成和修复方面表现出色，但其在视频超分辨率中的应用面临时间闪烁问题，扩散模型的随机性会导致视频帧之间出现突然的过渡，产生时间上的闪烁伪影。这篇博客介绍一种基于Stable Diffusion x4 Upscaler的视频超分模型DiffVSR。

126、视频外绘技术总结：Be-Your-Outpainter、Follow-Your-Canvas、M3DDM

视频Inpaint的技术很火，但是OutPaint却热度不高，这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火，可是学术界对此关注比较少，博主从这三年的顶会中找到了最具代表性的三篇论文解读。

127、基于Rectified Flow FLUX的图像编辑方法 RF-Solver

现在越来越多的开源模型是基于Rectified Flow，特别是FLUX和HunYuan Video，但是Rectified Flow inversion的性质和之前有所不同，这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。

128、论文和代码解读：Training Free的FLUX图像编辑方法Stable Flow

图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向，当然不仅仅是这个方向对资源的要求比较低，更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向，如去噪、去雾、去雨等，是一个广义上的image-to-image任务。

入门基础系列文章汇总

有不少订阅我专栏的读者问diffusion models很深奥读不懂，需要先看一些什么知识打下基础？虽然diffusion models是一个非常前沿的工作，但肯定不是凭空产生的，背后涉及到非常多深度学习的知识，我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然等方面，总结一些经典的知识点，供读者参考。

1、Diffusion Models/Score-based Generative Models背后的深度学习原理(1)：配分函数

2、Diffusion Models/Score-based Generative Models背后的深度学习原理(2)：基于能量模型和受限玻尔兹曼机

3、Diffusion Models/Score-based Generative Models背后的深度学习原理(3)：蒙特卡洛采样法和重要采样法

4、Diffusion Models/Score-based Generative Models背后的深度学习原理(4)：随机最大似然和对比散度

5、Diffusion Models/Score-based Generative Models背后的深度学习原理(5)：伪似然和蒙特卡洛近似配分函数

6、Diffusion Models/Score-based Generative Models背后的深度学习原理(6)：噪声对比估计

7、Diffusion Models/Score-based Generative Models背后的深度学习原理(7)：估计配分函数

代码解读系列

1、DDPM代码详细解读(1)：数据集准备、超参数设置、loss设计、关键参数计算

大部分DDPM相关的论文代码都是基于《Denoising Diffusion Probabilistic Models》和《Diffusion Models Beat GANs on Image Synthesis》贡献代码基础上小改动的。官方的DDPM是tensorflow TPU版本，暂时没有GPU的版本。本篇文章开始，详细解读一下pytorch和tensorflow版本的代码。

2、DDPM代码详细解读(2)：Unet结构、正向和逆向过程、IS和FID测试、EMA优化

大部分DDPM相关的论文代码都是基于《Denoising Diffusion Probabilistic Models》和《Diffusion Models Beat GANs on Image Synthesis》贡献代码基础上小改动的。官方的DDPM是tensorflow TPU版本，暂时没有GPU的版本。上一篇文章介绍了数据集加载，超参数的含义、关键参数的计算方法等，这一篇重点解读一下网络结构。

3、DDPM代码详细解读(3)：图解模型各部分结构、用ConvNextBlock代替Resnet

前两篇文章讲了pytorch版本的代码，并一一介绍重要方法的原理。官方给的代码是tensorflow TPU版本，没有跑通。但是有很多人用pytorch复现了tensorflow TPU版本的代码，暂时没看见tensorflow GPU版本的代码。这篇文章解读一下对应的pytorch版本的代码，重点分析一下用最新的ConvNextBlock代替ResBlock效果。

4、代码实战——从零开始搭建自己的Diffusion models/Score-based generative models

这个系列曾经写过三篇文章专门讲代码，分别从数据集、超参数、loss设计、参数计算、Unet结构、正向过程、逆向过程等部分详细介绍了如何搭建DDPM。Diffusion models领域发展神速，最近半年代表作品有OpenAI的GLIDE、DALL-E 2，Google Brain的ImageGen，海森堡大学的Latent Diffusion。这篇博客针对入门新手讲解一下如何利用已有的资源快速搭建自己的Diffusion models。

5、手把手写Generative score-based models代码

作为和DDPM同宗同源的score-based models，虽然没能做到如此火爆，但是其中很多思想都被后来的研究者们借鉴，这篇博客就详细讲解score-based models代码，手把手带读者生成自己的MNIST。

6、代码讲解——用diffusion models级联式超分辨重建

去年写过一篇文章《Diffusion Models在超分辨率领域的应用》，介绍diffusion models超分辨率重建方面工作。如今级联法已经成为diffusion models大模型的标配，主要原因有两点：1）直接训练256*256设置512*512分辨率的模型，硬件能力无法胜任。2）diffusion models超分模型已经能取得非常棒的效果，而且用相同的信息注入方式，完美贴合各种多模态任务。

7、详细解读Latent Diffusion Models：原理和代码

CVPR 2022中的一项新工作latent diffusion models引起了广泛关注，提出了两段式diffusion models能有效节省计算资源，latent attention技术为通用image-to-image任务打下基础，让人耳目一新，具有极强的借鉴意义和启发性，值得深度阅读。

8、代码讲解——用diffusion models级联式超分辨重建

去年写过一篇文章《Diffusion Models在超分辨率领域的应用》，介绍diffusion models超分辨率重建方面工作。如今级联法已经成为diffusion models大模型的标配，主要原因有两点：1）直接训练256*256设置512*512分辨率的模型，硬件能力无法胜任。2）diffusion models超分模型已经能取得非常棒的效果，而且用相同的信息注入方式，完美贴合各种多模态任务。

9、DDIM代码详细解读(1)：数据集加载、类别条件信息读取、关键超参数解析

之前写过三篇详细解读DDPM代码的博客，随着时间已经来到2022年7月，单纯使用DDPM已经逐渐被淘汰，最新的论文更多使用DDPM的改进版本。DDIM作为DDPM最重要的改进版本之一，从本篇博客开始详细解读一下DDIM代码。本文主要讲解如何加载数据集，如何读取类别条件信息，以及关键的超参数如何计算。

10、DDIM代码详细解读(2)：关键参数计算、损失函数设计、添加时间步长信息、归一化设计

之前写过三篇详细解读DDPM代码的博客，随着时间已经来到2022年7月，单纯使用DDPM已经逐渐被淘汰，最新的论文更多使用DDPM的改进版本。DDIM作为DDPM最重要的改进版本之一，从本篇博客开始详细解读一下DDIM代码。这篇博客详细讲解一下如何计算关键参数，如何设计损失函数，如何添加时间步长信息，如何设计损失函数。

11、DDIM代码详细解读(3)：核心采样代码、超分辨率重建

之前写过三篇详细解读DDPM代码的博客，随着时间已经来到2022年10月，单纯使用DDPM已经逐渐被淘汰，最新的论文更多使用DDPM的改进版本。DDIM作为DDPM最重要的改进版本之一，从本篇博客开始详细解读一下DDIM代码。这篇博客详细讲解一下如何设计核心采样代码、如何用diffusion models做超分辨重建。

12、DDIM代码详细解读(4)：分类器classifier的网络设计、训练、推理

之前写过三篇详细解读DDPM代码的博客，随着时间已经来到2022年11月，单纯使用DDPM已经逐渐被淘汰，最新的论文更多使用DDPM的改进版本。DDIM作为DDPM最重要的改进版本之一，从本篇博客开始详细解读一下DDIM代码。这篇博客详细讲解一下如何设计分类器，如何训练分类器，如何在推理过程中使用分类器。

13、深入解读GLIDE/PITI代码

GLIDE是diffusion models text-to-image的一项非常经典的模型，PITI是一项基于GLIDE的工作，读懂PITI相当于读懂GLIDE，这篇文章就和读者一起解读代码，难以描述的地方会画出程序流程图解释。点赞打卡，立马启程！

14、详细解读Diffuser DreamBooth代码

之前的博客《如何定制属于自己的stable diffusion？Dreambooth原理详解和代码实战》详细解读了dreambooth，不过那篇博客的代码讲解部分主要基于mmagic，不过瘾。这篇博客讲解一下diffuser的drembooth的部分。

15、代码解读：Stable Video Diffusion 中对运动程度的控制

在SVD中，对运动的控制可以分成对镜头运动的控制和对内容运动的控制，这篇博客详细通过代码讲解如何对内容运动的控制。

16、详细解读ControlNet diffusers版本代码

ControlNet的原理部分可以看我之前写的博客《Image-to-Image任务的终结者：详解ControlNet原理与代码》，这篇博客主要讲解一下diffusers版本的ControlNet代码，从代码中洞悉原理，加深理解。

17、由浅入深理解Latent Diffusion/Stable Diffusion(5)：利用预训练模型快速开始自己的科研任务

从零开始训练一个stable diffusion大概需要16万美元和1个月的时间，这对于一般的科研工作者来说难以承受，所以如何利用预训练模型快速开始自己的科研训练是一个非常有价值的问题。这篇博客将演示如何利用预训练模型快速开始自己的科研任务，希望对大家有所帮助！

18、代码解析：Stable Diffusion中Style控制是如何作用的？

不少读者发现，在Stable Diffusion的Webui上都有风格控制的功能，特别是Stable Diffusion XL的Style控制效果非常好。这篇博客讲解一下背后的技术和代码实现。

19、代码解读：如何微调Stable Video Diffusion？

Stable Video Diffusion是目前已开源的视频生成模型中效果最好的，微调Stable Diffusion图像模型的教程非常多，但是微调Stable Diffusion视频模型的教程几乎没有。这篇博客给出微调视频扩散模型的代码教程，希望能对读者们有所启发。

20、代码解读：Stable Video Diffusion 中对运动程度的控制

在SVD中，对运动的控制可以分成对镜头运动的控制和对内容运动的控制，这篇博客详细通过代码讲解如何对内容运动的控制。

21、代码解读：使用Stable Diffusion完成相似图像生成任务

作为内容生产重要的一部分，生成相似图像是一项有意义的工作，例如很多内容创作分享平台单纯依赖用户贡献的图片已经不够了，最省力的方法就是利用已有的图片生成相似的图片作为补充。这篇博客详细解读基于Stable Diffusion生成相似图片的原理和代码。

22、代码讲解：详细解读Diffusion Models中的noise augmentation(噪声增强)技术

做图像超分或者视频生成的小伙伴可能会经常看到训练时会用到noise augmentation技术，但是去Google/百度直接搜索，居然前三页都没有相关讲解。这篇博客就从原理和代码的角度详细解读一下Diffusion Models中的noise augmentation技术。

23、代码实战：使用Stable Diffusion完成虚拟模特换衣任务

之前在博客《解读DreamPose：基于Diffusion Models的模特视频生成》中介绍了如何生成模特换衣的视频，在电商场景下得到了广泛的应用。由于视频生成的技术还不太成熟，但是模特换衣图片生成却非常成熟，这篇博客从代码角度讲解如何完成这一任务。

24、代码解读：MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

最近一年有很多非常火的人类跳舞视频生成的工作，最近腾讯出品了基于SVD模型的MimicMotion，是目前生成结果最好、效果最稳定、分辨率最高、人物ID特征保持最好的工作，这篇博客结合论文原理和细节，深入解读《MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance》的代码。

25、代码解读：Diffusion Models中的长宽桶技术(Aspect Ratio Bucketing)

自从SDXL提出了长宽桶技术之后，彻底解决了不同长宽比的图像输入问题，现在已经成为训练扩散模型必选的方案。这篇博客从代码详细解读如何在模型训练的时候运用长宽桶技术(Aspect Ratio Bucketing)。

26、源码剖析：详细解读基于DiT结构的视频生成模型EasyAnimate

Sora发布半年之后，开源社区也有很多有影响力的工作如Open-Sora、EasyAnimate、Open-Sora-Plan等，这些都复现了Sora里面的经典思想。这篇博客以《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》为例，详细解读EasyAnimate的代码，希望对follow Sora的读者有所帮助。

27、Open-Sora代码详细解读(1)：解读DiT结构

目前开源的DiT视频生成模型不是很多，Open-Sora是开发者生态最好的一个，涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发，深入解读背后的原理。

28、代码讲解：视频扩散模型中的时间层和空间层区别到底是什么？

虽然3D全卷积已经在CogVideo等模型上应用，可能会逐步取代时间层+空间层的扩散模型，但是目前时空层扩散模型依旧是视频生成领域的主要结构，这篇博客以DiT-based模型的为例，详细讲解视频扩散模型中的时间层和空间层区别到底是什么？他们之间的作用到底是什么？我们在训练/微调过程中需要如何利用他们各自的特点？

29、Open-Sora代码详细解读(2)：时空3D VAE

目前开源的DiT视频生成模型不是很多，Open-Sora是开发者生态最好的一个，涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发，深入解读背后的原理。

30、扩散模型代码实战：无条件图像生成扩散模型

无条件生成模型是最经典的扩散模型生成任务，是指模型经过训练后，生成与其训练数据分布相似的图像。由于不需要复杂的条件控制，非常适合刚入门的读者学习扩散模型的本质知识。这篇博客以代码为主，以原理为基石，深入讲解如何训练和推理无条件图像生成扩散模型。

31、扩散模型实战：从零开始训练手写数字生成模型

手写数字的数据集是绝大部分炼丹师的深度学习初恋，这篇博客以代码为主，手把手带读者搭建一个基于扩散模型的手写数字生成模型，非常适合刚接触扩散模型的初学者学习。

32、代码实战：使用扩散模型微调生成自己曲风的音频

扩散模型在图像领域的成功人尽皆知，其实扩散模型在音频领域相当成功，可以根据输入的一小段音频，就能微调生成出自己曲风的音频。这篇博客从代码开始讲解，使用预训练的音频扩散模型微调生成自己曲风的音频。

33、原理&代码解读：ControlNeXt: Powerful and Efficient Control for Image and Video Generation

ControlNet可以说是Diffusion Models条件生成领域最成功的作品之一，但是ControlNet的额外开销实在是太大了，可训练参数相当于所有预训练参数的近一半。除此之外，ControlNet采用零初始化会导致收敛速度慢，会阻止模块从损失函数接收准确的梯度。ControlNeXt完美解决了ControlNet存在的问题，很可能是下一代条件生成最成功的作品！这篇博客将从代码和原理的角度，全面解析ControlNeXt。

34、原理&代码解读：基于DiT结构视频生成模型的ControlNet

相比于基于UNet结构的视频生成模型，DiT结构的模型最大的劣势在于生态不够完善，配套的ControlNet、IP-Adapter等开源权重不多，导致难以落地。最近DiT-based 5B的ControlNet开源了，相比于传统的ControlNet有不少改进点，这篇博客将从原理和代码上重点解读一下。

35、详细解读个性化定制大杀器IP-Adapter代码

IP-Adapter作为Diffusion Models最成功的技术之一，已经在诸多互联网应用中落地。介绍IP-Adapter原理和应用的博客有很多，但是逐行详细解读代码的博客很少。这篇博客从细节出发，结合原理详细解读个性化定制大杀器IP-Adapter代码。

36、代码解读：CogVideoX-5B 1.0和CogVideoX-5B 1.5的区别

CogVideoX-5B 1.5相比于CogVideoX 5B-1.0在各个方面都有一个明显的提升，CogVideoX1.5-5B系列支持更高分辨率的10秒视频，CogVideoX1.5-5B-I2V支持任何分辨率的视频生成。但是由于模型架构等方面没有较大的改动，所以官方并没有公开技术报告。笔者详细阅读代码后发现，1.5版本相比于1.0的改动其实不少，这篇博客就详细介绍一下CogVideoX-5B 1.0和CogVideoX-5B 1.5的区别。

37、代码解读：如何将T2V模型训练成I2V模型？以CogVideoX为例

目前基础模型的训练大家都倾向于先训练一个T2V的模型，然后在T2V模型的基础上用少量数据(百万量级)训练出一个I2V模型。这篇博客以CogVideoX为例子，介绍Inpaint(CogVideoX-FUN)和Concat(CogVideoX-Factory)两种方法将将T2V模型训练成I2V模型。

38、详细解读经典跨模态对齐技术Q-Former代码

介绍BLIP2的博客层出不穷，介绍Q-Former的博客也不少，但是详细解读Q-Former代码的博客很少。这篇博客希望以代码为基础，讲明白Q-Former的原理和核心思想，并详细解读一些值得注意的细节。希望读者们能从这一经典技术中朝花夕拾，得到启发。

39、代码实战：使用Enhance-A-Video增强EasyAnimate视频生成的结果

上一篇博客《原理&代码详细解读：一行代码增强HunYuan/CogVideox视频生成的利器Enhance-A-Video》讲解了Enhance-A-Video的原理以及在HunYuan/CogVideox上的应用。由于官方版本并没有提供对EasyAnimate的支持，因此这篇博客从代码实战出发，讲解如何写一个用Enhance-A-Video支持EasyAnimate生成的效果。

40、代码实战：使用LoRA训练HunYuan Video生成定制肖像视频（附调参经验）

使用Diffusion Models定制肖像图片的教程很多，效果也很不错。之前也有基于AnimateDiff/CogVideox定制肖像视频工作，但是相比于HunYuan Video效果差距很大。毫不夸张的说，HunYuan Video生成定制肖像视频已经能达到以假乱真的程度！这篇博客主要讲述如何通过几张自己的肖像照片，使用LoRA训练HunYuan Video生成定制肖像视频。

41、解读HunYuan Video代码(1)：揭秘核心双流+单流的MM-DiT结构

FLUX和HunYuan-Video是目前开源效果最好的图像生成模型和视频生成模型，背后成功的关键之一就是双流+单流MM-DiT。很多社区的朋友讨论说DiT的效果很多方面表现不如UNet，诚然，改进版本双流+单流MM-DiT才是彻底击败UNet的关键。这篇博客是解读HunYuan Video代码的第一篇，首先解读最核心的网络结构。

42、论文和代码解读：RF-Inversion 图像/视频编辑技术

Rectified Flow的反演和DDIM这些不太一样，上一篇博客中介绍了腾讯提出的一种方法《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》，主要就是用泰勒展开和一阶导数近似来分解反演公式。这篇博客介绍谷歌提出的方法RF-Inversion，这篇工作更有名，贡献度更高。

43、RF-Solver(Taming Rectified Flow for Inversion and Editing) 代码解读

之前在博客《基于Rectified Flow FLUX的图像编辑方法 RF-Solver》中介绍了一种RF反演方法RF-Solver的原理，这篇博客从实战角度出发，详细解读其代码。

44、代码解读：如何将HunYuan T2V模型训练成I2V模型？

HunYuan T2V模型出来很久了，但是想要训练成I2V的模型还是有点难度。此外，还有很多预训练视频模型都是T2V的，可以借鉴本文的方法加入参考图作为条件，并严格保持视频的第一帧与Image一样。

45、论文和代码解读：Training Free的FLUX图像编辑方法Stable Flow

图像编辑一直是显卡资源不充足的研究组首选的 Diffusion 研究方向，当然不仅仅是这个方向对资源的要求比较低，更多是因为用于图像编辑的大规模配对数据集实在很难获取。其实图像编辑可以泛化到很多low-level方向，如去噪、去雾、去雨等，是一个广义上的image-to-image任务。

46、原理和代码解读：通义万相 WanX 2.1 视频生成模型

昨晚通义万相 WanX 2.1开源了，在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标，实际的效果怎样？WanX 2.1 的技术架构是怎样的？有哪些技术改进？如何从T2V改造成I2V的模型的？这篇博客从原理和代码上详细解读这些问题。

47、原理和代码解读：音频驱动数字人经典项目AniPortrait

现在基于Diffusion的音频驱动数字人的工作有很多，其效果也是各有千秋。这篇博客解读一篇经典的工作AniPortrait，搞懂这篇经典之作，对于理解其他数字人的工作有很多好处。

每日AIGC最新进展系列

AIGC的发展日新月异，不论是工业界还是学术界的同行每日面对海量论文总会觉得有点无从下手。博主每天精选最新的AIGC进展，供大家一起学习。

每日AIGC最新进展(1)：交互式可控3D生成、用于大词汇量3D生成的3D Diffusion Transformer、使用Dense Blob生成图像

每日AIGC最新进展(2)：中国风景视频生成大模型、通过视频生成与 3D 对象进行基于物理的交互、无分类器指导权重调度器分析

每日AIGC最新进展(3)：基于Diffusion Models的个性化内容生成综述、连续布朗桥的视频插帧算法、文本到图像扩散模型中记忆的实用分析

每日AIGC最新进展(4)：个性化的文本到图像生成、将复杂的多步扩散模型简化为单步条件生成对抗网络学生模型、文本驱动的快速3D室内场景生成

每日AIGC最新进展(5)：卷积神经网络在空间频率域中的对抗性鲁棒性、预训练多模态模型的情感认知合理性、3D Gaussian Splatting在实际应用中的高效渲染

每日AIGC最新进展(6)：视觉一致插图序列生成、阿里巴巴电商人物产品互动图生成、Text-to-Vector生成、多视图扩散模型3D重建

每日AIGC最新进展(7)：频域引导的超分扩散模型、同时生成自然的说话面孔和语音输出Text-to-Speaking Face、4D全景场景图生成、语义感知的协同语音手势合成

每日AIGC最新进展(8)：使用扩散模型进行基于几何的图像编辑、将扩散模型提炼成条件GANs、任意分辨率和时长视频生成的DiT模型、One-Shot 人脸Talk视频生成

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉迷单车的追风少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。