OpenAI安全系统负责人:从头构建视频生成扩散模型

553d5dd865f34cd4065a92fe8ba1bbe9.jpeg

者 | Lilian Weng

OneFlow编译

翻译|杨婷、宛子琳、张雪聃

题图由SiliconFlow MaaS平台生成

过去几年,扩散模型(Diffusion models)在图像合成领域取得了显著成效。目前,研究界已开始尝试更具挑战性的任务——将该技术用于视频生成。视频生成任务是图像生成的扩展,因为视频本质上是一系列连续的图像帧。相较于单一的图像生成,视频生成的难度更大,原因如下:

  1. 它要求在时间轴上各帧之间保持时间一致性,这自然意味着需要将更多的世界知识嵌入到模型中。

  2. 相较于文本或图像,收集大量高质量、高维度的视频数据难度更大,更不用说要获取文本与视频的配对数据了。

阅读要求:在继续阅读本文之前,请确保你已经阅读了之前发布的关于图像生成的“什么是扩散模型?(https://lilianweng.github.io/posts/2021-07-11-diffusion-models/)”一文。(本文作者Lilian Weng是OpenAI的AI安全与对齐负责人。本文由OneFlow编译发布,转载请联系授权。原文:https://lilianweng.github.io/posts/2024-04-12-diffusion-video/)

1

从零开始的视频生成建模

首先,我们来回顾一下从头开始设计和训练扩散视频模型的方法,这里的“从头开始”指的是我们不依赖预训练的图像生成器。

参数化与采样基础

在前一篇文章的基础上,我们对变量的定义稍作调整,但数学原理依旧不变。假设7189713701fccfb959aaf48f0b3dbd09.png是从真实数据分布中采样的数据点。现在,我们逐步向其引入少量的高斯噪声,形成一系列x的噪声变量5a663c3c5d59499836ddd6c1346fb853.png,随着的增长,噪声量逐渐增大,直至最终形成47ed45f5a8bf8d12847daba27410ad46.png。这一逐步添加噪声的前向过程遵循高斯过程。此外,我们用b640cf87202de66a454d910678df431e.png来表示高斯过程的一个可微分的噪声调度(noise schedule):

fa11a69e2c5004fe9c57cc5689a35c0e.png

dd060a9492128e8ded1ad99ab336a658.png表示为6ccdba78903e121cb8396f962ea6c82f.png,需要以下操作:

72039bc7685c5bcd444c3c96cc927f66.png

设对数信噪比e45e00d5157834f12cb80281c095c714.png,我们可以将DDIM(宋等人,2020年)更新表示为:

b8f35612a26357a9ec4d4399580d3539.png

由Salimans和Ho(2022年)提出的v预测 e1e5627ce5c59492eae7881fe7f3cce0.jpeg参数化,特别适用于在视频生成中避免色彩偏移,相比cd4a954328c8f0bec270141ce17f6435.jpeg参数化,其效果更佳。

v参数化采用了角坐标系中的一个巧妙技巧进行推导。首先,我们定义02ad852143596b28d1b1dab25e67d3e3.png,然后得到b9383ce0aad10c5ea5a39a59ebd7f90b.png297a0bb693ca96eb8f12451639ca83ea.png的速率可以表示为:

1a3622e07295d45eb97b1e9cfc670579.png

然后可以推导出:

e2caca04baa723925ee48442554325b7.png

相应地,DDIM更新规则为:

789a0b54e4245c827e4de669986fc9ce.png

48cac47bc965377c8d75275d3499c432.png

图1:扩散更新步数在角坐标中的工作原理,其中,DDIM沿着79bbf7a8c30fec4ebbe6469ae497665f.png方向移动d2baf62986b03d47aa9a157921d515ed.png来进行演化。(图源:Salimans和Ho,2022)

模型的v参数化是为了预测87449d19f1274e33e5a959282d017510.png

在视频生成中,我们需要扩散模型运行多个上采样步数,以延长视频长度或提高帧率。这要求模型具备根据第一个视频ed2b9d203208dd35c3a1e4877362cd8c.png采样第二个视频2c535aa238f3a15031a0b62a31a130ef.png的能力,e5905776fa09eb3f87f98171ad13fb97.png,其7ff6f59dd4ebf6629e66648adb307569.png可能是52ac4ed280476536b95e5be527c2d6f9.png的自回归扩展,或者是低帧率视频748058ddfccd503cf7a20eb61e546b63.png中的缺失帧。

采样ddb4c4c626bf246403791218625cf3ba.png时,不仅要依赖其自身的噪声变量,还需要考虑视频16ede48c3cae361a75830609dd632206.png。视频扩散模型(VDM;Ho和Salimans等人,2022年)提出了一种重建引导(reconstruction guidance)方法,使用调整后的去噪模型,确保视频899be309357fe6172e8aa210141b2ec0.png的采样能够恰当地考虑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值