AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

摘要

本文提出了一个模型可以将生成的静态图像与运动动力学相结合。我们提出了一个实用的框架,使大多数现有的个性化文本到图像模型一次动画化该框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频片段上训练它以提取合理的运动先验。一旦经过训练,通过简单地注入这个运动建模模块,从同一基础 T2I 派生的所有个性化版本都很容易成为产生多样化和个性化动画图像的文本驱动模型。

1 介绍

虽然使用 DreamBooth 或 LoRA 训练的个性化文本到图像模型已经成功地通过它们的非凡的视觉质量引起了注意力,但它们的输出是静态图像。也就是说,缺乏时间自由度。我们提出一种通用型方法以实现为任何个性化 T2I 模型生成动画图像的能力,不需要特定于模型的调整工作并随着时间的推移实现吸引人的内容一致性。大多数的T2I都是来自相同的模型,但是想到做到不同的个性化就需要不同的数据集来训练,显然这是不现实的,所以转为设计一个运动建模模块,他可以引入到T2I模型中然后微调以达到个性化的要求。

2 方法

个性化图像生成

在个性化图像生成方面,DreamBooth和LoRA是两个代表性且广泛使用的方法。

为了将新领域的概念、风格等引入预训练的T2I模型,最简单的方法是在该特定领域的图像上微调该模型。然而,直接微调模型而没有正则化通常会导致过度拟合或灾难性遗忘,特别是当数据集规模较小时。

为了解决这个问题,DreamBooth采用了一种正则化方法,使用稀有字符串作为指示来表示目标域,并通过添加原始T2I模型生成的图像来增强数据集。这些正则化图像是在没有指示符的情况下生成的,这使得模型可以在微调过程中学习将稀有字符串与预期领域相关联。

简而言之,这种方法通过向数据集中添加生成的图像来增加样本多样性,并使用稀有字符串作为指示来引导模型学习新领域的特征。这种正则化方法有助于防止过度拟合和灾难性遗忘,从而改善模型在个性化图像生成任务中的性能和泛化能力。

另一方面,LoRA 采用不同的方法,试图通过尝试微调模型权重的残差,即训练 ΔW 而不是 W。微调后的权重计算为 W ' = W + αΔW ,其中 α 是调整调整过程影响的超参数,从而为用户提供更多自由度来控制生成的结果。

个性化动画

我们针对个性化动画,其正式表述为:给定一个个性化的 T2I 模式,例如,由用户训练的 DreamBooth或 LoRA检查点或从 CivitAI或 Huggingface下载),目标是将其转换为几乎没有或没有训练成本的动画生成器,同时保留其原始领域知识和质量。一种简单的方法是通过添加时间感知结构在大规模数据集上学习合理的运动先验来膨胀T2I模型。但是对于个性化来说,要收集每个个性化的数据是不容易的。所以作者选择训练一个可推广的运动建模模块,并在推理时插入到个性化的T2I模型中。这样就避免了对每个模型的训练。

3 运动建模模块

网络膨胀

原始SD(单张图像处理)模型只能处理图像数据批次,而运动建模模块需要接受形状为批次×通道×帧数×高度×宽度的5D视频张量作为输入。具体而言,通过将"frame"轴重塑为批次轴,并允许网络独立地处理每一帧,将原始图像模型中的每个2D卷积和注意力层转换为仅空间的伪3D层。这样做的目的是将原始图像模型适应于视频数据的处理。伪3D层的操作可以看作是对视频序列中的每个帧进行相同的2D卷积和注意力处理,而不考虑帧与帧之间的时间关系。

模块设计

对于我们的运动建模模块的网络设计,我们的目标是跨帧实现高效的信息交换。为了实现这一点,我们选择了vanilla时间转换器作为我们的运动模块的设计。vanilla 时间转换器由几个沿时间轴操作的自注意力块组成(图 3)。在通过我们的运动模块时,首先将特征图 z 的空间维度高度和宽度重塑为批次维度,得到长度为 f rames 的批次 × 高度 × 宽度序列。然后将重塑的特征图投影并经过几个自注意力块。

其中 Q = W Qz, K = WK z,V = WV z 是重塑特征图的三个投影。此操作使模块能够捕获跨时间轴同一位置的特征之间的时间依赖性。为了扩大运动模块的感受野,我们在 U 形扩散网络的每个分辨率级别插入它。此外,我们将正弦位置编码添加到自我注意块中,让网络知道动画剪辑中当前帧的时间位置。为了在训练期间插入没有有害影响的模块,我们零初始化时间变换器的输出投影层

  • 36
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值