AIGC视频生成-AnimateLCM

0. 资源链接

1. 背景动机

  • 视频生成扩散模型因其能够生成连贯且高保真的视频而越来越受到关注,甚至有一些产品已经可以生成以假乱真的视频,如:OpenAI的Sora,生数科技的Vidu。基于开源生态的Stable Video Diffusion也吸引了大量社区的开发者和设计师。

  • 视频内容生成需求的增长,伴随着对视频画质和视频长度的增长,这带来了巨大的计算消耗。计算成本高,生成速度慢的视频生成模型严重限制了广泛应用。

  • 根本原因是,迭代去噪过程使其计算密集且耗时,限制了其应用。

  • 论文作者受启发于在最小步骤内加速采样的预训练图像扩散模型的一致性模型(CM)及其在条件图像生成上成功的扩展——潜在一致性模型(LCM),提出了AnimateLCM,允许在最小步骤内生成高质量视频

2. 内容提要

  • 本论文提出了AnimateLCM,允许在最小步骤内生成质量视频。

  • 提出一致性解耦,不是直接在原始视频数据集上进行一致性学习,它将图像生成先验和运动生成先验的蒸馏分开,这提高了训练效率并增强了生成的视觉质量。

  • 此外,为了使用Stable DIffusion社区中的模块能够实现各种功能(例如,ControlNet用于可控生成),作者提出了一种有效策略,将现有适配器适应到我们蒸馏的文本条件视频一致性模型,或者从头开始训练适配器,而不影响采样速度。

3. 技术细节

3.1 一致性解耦学习

  • 目的:为了提高训练效率和生成的视觉质量,作者提出了一种解耦的一致性学习策略,将图像生成和运动生成的一致性学习分开进行。

  • 方法:首先,作者在高质量的图像-文本数据集上对图像扩散模型进行蒸馏,得到图像一致性模型。然后,通过3D膨胀技术将2D图像扩散模型扩展到视频特征,再进行视频数据上的一致性蒸馏,得到视频一致性模型。

  • 优势:这种方法避免了直接在原始视频数据集上进行一致性学习可能遇到的低质量问题,并且减少了训练资源的需求。通过解耦,可以更专注于优化图像质量和运动连贯性,从而提高最终视频生成的视觉质量和流畅性。

具体实现

  • 图像一致性模型:通过蒸馏过程,将预训练的图像扩散模型转化为能够在较少步骤内生成高质量图像的模型。

  • 3D膨胀:将2D卷积核扩展为伪3D卷积核,并添加时间层以适应视频的3D特征。

  • 视频一致性模型:在视频数据上进行一致性蒸馏,得到能够生成连贯视频的模型。

  • 初始化策略:为了减少膨胀过程中可能的特征损坏,提出了一种特殊的初始化策略,通过逐步将空间LoRA权重合并到目标一致性模型中,来提高训练效率

3.2 适配器

与一致性解耦学习策略相结合,提供了一种高效且灵活的方式来实现高质量的视频生成和控制。通过适配器,可以在保持采样速度的同时,实现对生成过程的精确控制和个性化定制。

3.3 初始化策略

在本文中,初始化策略是针对解耦一致性学习过程中的一个关键环节,目的是在将空间LoRA权重和时间层结合时,减少特征损坏并提高训练效率。以下是对初始化策略的详细解释:

概念解释

  • 初始化策略(Initialization Strategy):在深度学习中,初始化策略指的是如何设置模型参数的初始值。合适的初始化可以加速模型的收敛,并帮助避免训练过程中的一些问题,如梯度消失或爆炸。

本文中的初始化策略

  • 目的:在AnimateLCM中,初始化策略旨在解决在将空间LoRA权重和时间层结合时可能出现的特征损坏问题,并提高模型的训练效率。

  • 方法:本文提出的初始化策略是在训练开始时,只将预训练的空间LoRA权重插入到在线一致性模型(online model)中,而不插入到目标一致性模型(target model)中。

  • 优势:这种策略使得目标一致性模型在训练初期不会生成损坏的预测,从而不会影响在线模型的学习过程。随着训练的进行,LoRA权重会逐渐通过指数移动平均(EMA)累积到目标一致性模型中。

具体实现

  • 空间LoRA权重:这些权重是为图像生成任务预训练得到的,可以加速采样过程。

  • 时间层:为了适应视频数据的3D特征,时间层被添加到模型中,初始时权重设置为零。

  • 指数移动平均(EMA):随着训练的进行,LoRA权重会通过EMA逐渐更新到目标一致性模型中,从而实现平滑的权重过渡。

作用

  • 减少特征损坏:通过分开初始化空间和时间层,可以减少它们直接结合时可能导致的特征表示损坏。

  • 提高训练效率:这种策略有助于加速模型的训练过程,因为它允许模型在训练初期就利用预训练的LoRA权重。

  • 保持生成质量:通过逐步合并LoRA权重,可以在保持生成质量的同时,实现对视频生成任务的适应。

总的来说,初始化策略是AnimateLCM框架中一个重要的组成部分,它通过巧妙地处理空间和时间层的初始化,有助于提高视频生成模型的训练效率和生成质量。

3.4 实验

基准测试

  • 验证集:使用UCF-101视频数据集,这是一个为动作识别任务策划的分类视频数据集。

  • 评估指标:使用FVD(Fréchet Video Distance)和CLIPSIM作为验证指标,用于评估生成视频的质量。

定量实验

  • 性能比较:AnimateLCM在FVD和CLIPSIM指标上显著超越了基线方法DDIM和DPM++,尤其是在低步数(1-4步)生成时。

  • 个性化模型:通过替换空间权重为公开可用的个性化现实风格模型,AnimateLCM进一步提高了性能,显示出与个性化扩散模型的良好兼容性。

4. 一些思考

论文提出的方法可能对视频生成领域产生重大影响,特别是在需要快速生成高质量视频的应用场景中。此外,无需教师的适配策略为现有模型的改进和新模型的训练提供了新的思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值