本文来源公众号“WeThinkIn”,仅用于学术分享,侵权删,干货满满。
原文链接:从图像到视频:浅谈Video Diffusion Models背后的底层原理
写在前面
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章,点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402。
前言
最近一段时间恰好在推进手上的一个做视频生成相关的课题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生,到入行可控图像生成领域,到产出自己第一篇diffusion model相关的工作,再到目前产出第二个diffusion相关的视频工作的在读博士生,某种程度上可以说是见证了video diffusion models发展的历程。
说到视频生成这件事,真正让这个话题走进大家的视野的,其实还是今年年初Sora的首次亮相。Sora的亮相带火了两个东西——一个是Diffusion Transformer,另一个则是text-to-video generation这件事。至今时隔Sora亮相已经过去了足足八个月之久,视频生成领域的卷度貌似没有我们想象中的那样夸张。「夸张」这个标准我们可以用2022年到2024年,基于diffusion model的图像生成技术论文来对比,根据我自己的GitHub调研仓库结果显示,2022年相关的文章发表数量是40篇左右,而2023年更是来到了夸张的60篇。那么同样是基于diffusion model,为什么视频生成技术发展会相对于图像慢呢?
GitHub调研仓库详见链接:
文生图(https://github.com/AlonzoLeeeooo/awesome-text-to-image-studies)、
视频生成(https://github.com/AlonzoLeeeooo/awesome-video-generation)、
图像修复(https://github.com/AlonzoLeeeooo/awesome-image-inpainting-studies)
深度学习首要关注的是数据,那么对于视频生成也是同样。视频数据,本质上可以看成是一堆具有时序连续性的图片组成,其数据结构本身让图像跟视频之间存在一种递进关系;同时,「时序连续性」这件事情,决定了视频是比图像更高维的数据——多了一个时间维度。
从上面这两点出发,如果我们想直接将图像生成的技术搬到视频领域的话,最直接的办法就是把现在「力大飞砖」的思路用进来。然而,这样的思路很容面临两个问题:一是视频数据很难能找到像LAION这种规模的数据集,在数据上很容易给模型训练造成瓶颈。虽然说现在已经有诸如WebVid-10M、Panda-70M这种million数量级的数据集,但在质量、数量、多样性上恐怕还是难以跟LAION媲美;二是视频数据天然比图像数据多上一个维度,因此在算力需求上的要求只会更高。拿Stable Diffusion举例的话,恐怕128张A100是不够的——但是,