摘要
本文提出了一个模型可以将生成的静态图像与运动动力学相结合。我们提出了一个实用的框架,使大多数现有的个性化文本到图像模型一次动画化该框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频片段上训练它以提取合理的运动先验。一旦经过训练,通过简单地注入这个运动建模模块,从同一基础 T2I 派生的所有个性化版本都很容易成为产生多样化和个性化动画图像的文本驱动模型。
1 介绍
虽然使用 DreamBooth 或 LoRA 训练的个性化文本到图像模型已经成功地通过它们的非凡的视觉质量引起了注意力,但它们的输出是静态图像。也就是说,缺乏时间自由度。我们提出一种通用型方法以实现为任何个性化 T2I 模型生成动画图像的能力,不需要特定于模型的调整工作并随着时间的推移实现吸引人的内容一致性。大多数的T2I都是来自相同的模型,但是想到做到不同的个性化就需要不同的数据集来训练,显然这是不现实的,所以转为设计一个运动建模模块,他可以引入到T2I模型中然后微调以达到个性化的要求。
2 方法
个性化图像生成
在个性化图像生成方面,DreamBooth和LoRA是两个代表性且广泛使用的方法。
为了将新领域的概念、风格等引入预训练的T2I模型,最简单的方法是在该特定领域的图像上微调该模型。然而,直接微调模型而没有正则化通常会导致过度拟合或灾难性遗忘,特别是当数据集规模较小时。
为了解决这个问题,DreamBooth采用了一种正则化方法,使用稀有字符串作为指示来表示目标域,并通过添加原始T2I模型生成的图像来增强数据集。这