WeThinkIn | 从图像到视频：浅谈Video Diffusion Models背后的底层原理

最新推荐文章于 2025-02-06 21:30:47 发布

双木的木

最新推荐文章于 2025-02-06 21:30:47 发布

阅读量1.8k

点赞数 27

分类专栏：多模态模型专栏深度学习拓展阅读文章标签：人工智能计算机视觉算法音视频 opencv stable diffusion gan

本文链接：https://blog.csdn.net/csdn_xmj/article/details/143214488

版权

本文来源公众号“WeThinkIn”，仅用于学术分享，侵权删，干货满满。

原文链接：从图像到视频：浅谈Video Diffusion Models背后的底层原理

写在前面

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章，点击链接直达干货知识：https://zhuanlan.zhihu.com/p/684068402。

前言

最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题，也是对视频扩散模型（Video Diffusion Models）这一领域有了颇多认识。其中，视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生，到入行可控图像生成领域，到产出自己第一篇diffusion model相关的工作，再到目前产出第二个diffusion相关的视频工作的在读博士生，某种程度上可以说是见证了video diffusion models发展的历程。

说到视频生成这件事，真正让这个话题走进大家的视野的，其实还是今年年初Sora的首次亮相。Sora的亮相带火了两个东西——一个是Diffusion Transformer，另一个则是text-to-video generation这件事。至今时隔Sora亮相已经过去了足足八个月之久，视频生成领域的卷度貌似没有我们想象中的那样夸张。「夸张」这个标准我们可以用2022年到2024年，基于diffusion model的图像生成技术论文来对比，根据我自己的GitHub调研仓库结果显示，2022年相关的文章发表数量是40篇左右，而2023年更是来到了夸张的60篇。那么同样是基于diffusion model，为什么视频生成技术发展会相对于图像慢呢？

GitHub调研仓库详见链接：

文生图（https://github.com/AlonzoLeeeooo/awesome-text-to-image-studies）、

视频生成（https://github.com/AlonzoLeeeooo/awesome-video-generation）、

图像修复（https://github.com/AlonzoLeeeooo/awesome-image-inpainting-studies）

深度学习首要关注的是数据，那么对于视频生成也是同样。视频数据，本质上可以看成是一堆具有时序连续性的图片组成，其数据结构本身让图像跟视频之间存在一种递进关系；同时，「时序连续性」这件事情，决定了视频是比图像更高维的数据——多了一个时间维度。

从上面这两点出发，如果我们想直接将图像生成的技术搬到视频领域的话，最直接的办法就是把现在「力大飞砖」的思路用进来。然而，这样的思路很容面临两个问题：一是视频数据很难能找到像LAION这种规模的数据集，在数据上很容易给模型训练造成瓶颈。虽然说现在已经有诸如WebVid-10M、Panda-70M这种million数量级的数据集，但在质量、数量、多样性上恐怕还是难以跟LAION媲美；二是视频数据天然比图像数据多上一个维度，因此在算力需求上的要求只会更高。拿Stable Diffusion举例的话，恐怕128张A100是不够的——但是，

最低0.47元/天解锁文章