论文粗读系列-1:VideoElevator

本文介绍了一种名为VideoElevator的方法,通过将文本到视频扩散模型(T2V)与文本到图像扩散模型(T2I)结合,无需训练即可提升视频生成的帧质量和一致性。方法分为时间运动精炼和空间质量提升两部分,有效改善了传统T2V的局限。
摘要由CSDN通过智能技术生成

论文粗读系列-1

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

1.简介

arxiv [Submitted on 8 Mar 2024]

链接:VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models (arxiv.org)

代码:https://github.com/YBYBZhang/VideoElevato

文本到图像的扩散模型T2I在创造逼真和美学图像方面表现出前所未有的能力。

但是,由于训练视频的质量和数量不足,文本到视频扩散模型(T2V)在帧质量和文本对齐方面仍然远远落后。

在本文中,作者介绍了VideoElevator,这是一种无需培训【training-free】和即插即用【plug-and-play 】的方法,它利用T2I的优越功能来提高T2V的性能。

与传统的T2V采样(即时间和空间建模)不同,VideoElevator明确地将每个采样步骤分解为时间运动精炼【temporal motion refining】和空间质量提升【spatial quality elevating.】。具体来说,时间运动精炼使用封装的T2V来增强时间一致性,然后反转T2I所需的噪声分布。然后,空间质量提升利用膨胀的T2I直接预测较少噪声的潜在,增加更多逼真的细节。作者在各种T2V和T2I的组合下进行了大量提示实验。结果表明,VideoElevator不仅可以通过基础T2I提高T2V基线的性能,还可以通过个性化的T2I促进风格视频合成。

2.方法

具体来说,VideoElevator将时间步长t处的采样步长重新表述为:以噪声潜变量 z t z_t zt为输入,时间运动精炼封装T2V以增强时间一致性,并将噪声潜波反转为 z ~ t \tilde{z}_t z~t,因此空间质量提升直接利用T2I将其转换为更高质量的 z t − 1 z_{t−1} zt1

在这里插入图片描述

VideoElevator明确地将每个采样步骤分解为时间运动精炼和空间质量提升。时间运动细化使用低通频率滤波器(Low-Pass Frequency Filter, LPFF)来减少闪烁,使用基于t2v的SDEdit来添加细粒度运动,然后使用ddim反演将潜波反演为 z ~ t \tilde{z}_t z~t。空间质量提升利用膨胀的T2I直接将 z t z_t zt转换为 z t − 1 z_{t-1} zt1,其中T2I为把自注意力膨胀成跨框架注意力。为了确保T2V和T2I之间的相互作用,噪声潜变量被均匀地投射到没有噪声的潜变量.

  • Temporal motion refining

Temporal motion refining这个模块包含两个部分,第一个是用DDPM把它变成潜空间的T2V噪声,然后反向若干步之后再DDIM反演到T2I的噪声上,再进行T2I的生成。

其中使用的LPFF【low-pass frequency filter】模块就是沿时间维做滤波,先用FFT变到频域,然后滤波,然后再IFFT回去。这样操作可以减少视频的闪烁。

详细的过程是一个T2V-Based SDEdit。

这个模块可以充分利用T2V先验,还可以借助T2I提高视频生成质量。

  • Spatial quality elevating

考虑到时间运动精炼带来的稳定潜在的 z t z_t zt,空间质量提升利用T2I直接添加高质量的细节。然而,用传统的T2I单独去噪所有帧将导致外观上明显的不一致。受先前工作的启发,作者沿着时间轴膨胀T2I,以便所有帧共享相同的内容。

特别的,作者沿着时间维度扩展T2I的U-Net,包括卷积层和自注意力层。通过将3 × 3核替换为1 × 3 × 3核,将二维卷积层转换为三维卷积层。通过添加帧间交互,将自注意层扩展为first-only cross-frame attention的跨帧注意层。

3.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

很多年没更博客了,还是捡起来吧。去年看的文章今年就忘了。

不摆了,加训!

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值