论文粗读系列-1
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
1.简介
arxiv [Submitted on 8 Mar 2024]
代码:https://github.com/YBYBZhang/VideoElevato
文本到图像的扩散模型T2I在创造逼真和美学图像方面表现出前所未有的能力。
但是,由于训练视频的质量和数量不足,文本到视频扩散模型(T2V)在帧质量和文本对齐方面仍然远远落后。
在本文中,作者介绍了VideoElevator,这是一种无需培训【training-free】和即插即用【plug-and-play 】的方法,它利用T2I的优越功能来提高T2V的性能。
与传统的T2V采样(即时间和空间建模)不同,VideoElevator明确地将每个采样步骤分解为时间运动精炼【temporal motion refining】和空间质量提升【spatial quality elevating.】。具体来说,时间运动精炼使用封装的T2V来增强时间一致性,然后反转T2I所需的噪声分布。然后,空间质量提升利用膨胀的T2I直接预测较少噪声的潜在,增加更多逼真的细节。作者在各种T2V和T2I的组合下进行了大量提示实验。结果表明,VideoElevator不仅可以通过基础T2I提高T2V基线的性能,还可以通过个性化的T2I促进风格视频合成。
2.方法
具体来说,VideoElevator将时间步长t处的采样步长重新表述为:以噪声潜变量 z t z_t zt为输入,时间运动精炼封装T2V以增强时间一致性,并将噪声潜波反转为 z ~ t \tilde{z}_t z~t,因此空间质量提升直接利用T2I将其转换为更高质量的 z t − 1 z_{t−1} zt−1。
VideoElevator明确地将每个采样步骤分解为时间运动精炼和空间质量提升。时间运动细化使用低通频率滤波器(Low-Pass Frequency Filter, LPFF)来减少闪烁,使用基于t2v的SDEdit来添加细粒度运动,然后使用ddim反演将潜波反演为 z ~ t \tilde{z}_t z~t。空间质量提升利用膨胀的T2I直接将 z t z_t zt转换为 z t − 1 z_{t-1} zt−1,其中T2I为把自注意力膨胀成跨框架注意力。为了确保T2V和T2I之间的相互作用,噪声潜变量被均匀地投射到没有噪声的潜变量.
- Temporal motion refining
Temporal motion refining这个模块包含两个部分,第一个是用DDPM把它变成潜空间的T2V噪声,然后反向若干步之后再DDIM反演到T2I的噪声上,再进行T2I的生成。
其中使用的LPFF【low-pass frequency filter】模块就是沿时间维做滤波,先用FFT变到频域,然后滤波,然后再IFFT回去。这样操作可以减少视频的闪烁。
详细的过程是一个T2V-Based SDEdit。
这个模块可以充分利用T2V先验,还可以借助T2I提高视频生成质量。
- Spatial quality elevating
考虑到时间运动精炼带来的稳定潜在的 z t z_t zt,空间质量提升利用T2I直接添加高质量的细节。然而,用传统的T2I单独去噪所有帧将导致外观上明显的不一致。受先前工作的启发,作者沿着时间轴膨胀T2I,以便所有帧共享相同的内容。
特别的,作者沿着时间维度扩展T2I的U-Net,包括卷积层和自注意力层。通过将3 × 3核替换为1 × 3 × 3核,将二维卷积层转换为三维卷积层。通过添加帧间交互,将自注意层扩展为first-only cross-frame attention的跨帧注意层。
3.狗头保命
以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。
很多年没更博客了,还是捡起来吧。去年看的文章今年就忘了。
不摆了,加训!