WeThinkIn | 从图像到视频:浅谈Video Diffusion Models背后的底层原理

本文来源公众号“WeThinkIn”,仅用于学术分享,侵权删,干货满满。

原文链接:从图像到视频:浅谈Video Diffusion Models背后的底层原理

写在前面

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章,点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402。

前言

最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生,到入行可控图像生成领域,到产出自己第一篇diffusion model相关的工作,再到目前产出第二个diffusion相关的视频工作的在读博士生,某种程度上可以说是见证了video diffusion models发展的历程。

说到视频生成这件事,真正让这个话题走进大家的视野的,其实还是今年年初Sora的首次亮相。Sora的亮相带火了两个东西——一个是Diffusion Transformer,另一个则是text-to-video generation这件事。至今时隔Sora亮相已经过去了足足八个月之久,视频生成领域的卷度貌似没有我们想象中的那样夸张。「夸张」这个标准我们可以用2022年到2024年,基于diffusion model的图像生成技术论文来对比,根据我自己的GitHub调研仓库结果显示,2022年相关的文章发表数量是40篇左右,而2023年更是来到了夸张的60篇。那么同样是基于diffusion model,为什么视频生成技术发展会相对于图像慢呢?

GitHub调研仓库详见链接:

文生图(https://github.com/AlonzoLeeeooo/awesome-text-to-image-studies)、

视频生成(https://github.com/AlonzoLeeeooo/awesome-video-generation)、

图像修复(https://github.com/AlonzoLeeeooo/awesome-image-inpainting-studies)

深度学习首要关注的是数据,那么对于视频生成也是同样。视频数据,本质上可以看成是一堆具有时序连续性的图片组成,其数据结构本身让图像跟视频之间存在一种递进关系;同时,「时序连续性」这件事情,决定了视频是比图像更高维的数据——多了一个时间维度

从上面这两点出发,如果我们想直接将图像生成的技术搬到视频领域的话,最直接的办法就是把现在「力大飞砖」的思路用进来。然而,这样的思路很容面临两个问题:一是视频数据很难能找到像LAION这种规模的数据集,在数据上很容易给模型训练造成瓶颈。虽然说现在已经有诸如WebVid-10M、Panda-70M这种million数量级的数据集,但在质量、数量、多样性上恐怕还是难以跟LAION媲美;二是视频数据天然比图像数据多上一个维度,因此在算力需求上的要求只会更高。拿Stable Diffusion举例的话,恐怕128张A100是不够的——但是,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值