论文粗读系列-1:VideoElevator_videoelevator : elevating video generation quality-CSDN博客

本文链接：https://blog.csdn.net/ileln/article/details/136632645

本文介绍了一种名为VideoElevator的方法，通过将文本到视频扩散模型（T2V）与文本到图像扩散模型（T2I）结合，无需训练即可提升视频生成的帧质量和一致性。方法分为时间运动精炼和空间质量提升两部分，有效改善了传统T2V的局限。

摘要由CSDN通过智能技术生成

论文粗读系列-1

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

1.简介

arxiv [Submitted on 8 Mar 2024]

链接：VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models (arxiv.org)

代码：https://github.com/YBYBZhang/VideoElevato

文本到图像的扩散模型T2I在创造逼真和美学图像方面表现出前所未有的能力。

但是，由于训练视频的质量和数量不足，文本到视频扩散模型(T2V)在帧质量和文本对齐方面仍然远远落后。

在本文中，作者介绍了VideoElevator，这是一种无需培训【training-free】和即插即用【plug-and-play 】的方法，它利用T2I的优越功能来提高T2V的性能。

与传统的T2V采样(即时间和空间建模)不同，VideoElevator明确地将每个采样步骤分解为时间运动精炼【temporal motion refining】和空间质量提升【spatial quality elevating.】。具体来说，时间运动精炼使用封装的T2V来增强时间一致性，然后反转T2I所需的噪声分布。然后，空间质量提升利用膨胀的T2I直接预测较少噪声的潜在，增加更多逼真的细节。作者在各种T2V和T2I的组合下进行了大量提示实验。结果表明，VideoElevator不仅可以通过基础T2I提高T2V基线的性能，还可以通过个性化的T2I促进风格视频合成。

2.方法

具体来说，VideoElevator将时间步长t处的采样步长重新表述为:以噪声潜变量 $z_t$ 为输入，时间运动精炼封装T2V以增强时间一致性，并将噪声潜波反转为 $\tilde{z}_t$ ，因此空间质量提升直接利用T2I将其转换为更高质量的 $z_{t−1}$ 。

在这里插入图片描述

VideoElevator明确地将每个采样步骤分解为时间运动精炼和空间质量提升。时间运动细化使用低通频率滤波器(Low-Pass Frequency Filter, LPFF)来减少闪烁，使用基于t2v的SDEdit来添加细粒度运动，然后使用ddim反演将潜波反演为 $\tilde{z}_t$ 。空间质量提升利用膨胀的T2I直接将 $z_t$ 转换为 $z_{t-1}$ ，其中T2I为把自注意力膨胀成跨框架注意力。为了确保T2V和T2I之间的相互作用，噪声潜变量被均匀地投射到没有噪声的潜变量.