AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 详解

最新推荐文章于 2024-09-10 01:35:40 发布

DrYJ

最新推荐文章于 2024-09-10 01:35:40 发布

阅读量1k

点赞数 18

文章标签： stable diffusion 人工智能 AIGC

本文链接：https://blog.csdn.net/studentyingjie/article/details/134691646

版权

AnimateDiff 提供了一种方法，使个性化文本到图像模型（如 Stable Diffusion）能够生成动画，而无需特定模型的调整。通过在预训练模型中插入一个运动建模模块并用大规模视频数据集训练，可以学习到运动先验知识，生成时间平滑且领域一致的动画。实验显示，AnimateDiff 能适用于多种个性化模型，包括动漫和现实照片，且与现有方法相比，其动画效果更具时间一致性。

摘要由CSDN通过智能技术生成

项目地址：AnimateDiff

Abstract

随着文本到图像模型（例如 Stable Diffusion [22]）以及对应的个性化技术（如 DreamBooth [24] 和 LoRA [13]）的进步，每个人都可以以较低的成本将他们的想象力表现为高质量的图像。随之而来的是对图像动画技术的巨大需求，以进一步将生成的静态图像与运动动态相结合。在这份报告中，我们提出了一个实用的框架，可以一劳永逸地为大多数现有的个性化文本到图像模型添加动画功能，省去了针对特定模型进行调整的工作。在这个框架的核心是将一个新初始化的运动建模模块插入到冻结的文本到图像模型中，并对收集的视频剪辑数据集进行训练，以提取合理的运动先验知识。一旦训练完成，通过简单地注入这个运动建模模块，所有源自相同基础 T2I 的个性化版本就能够轻松地成为以文本驱动的模型，产生多样化和个性化的动画图像。我们在动漫图片和现实照片等几个公共代表性的个性化文本到图像模型上进行了评估，并证明了我们提出的框架有助于这些模型生成时间上平滑的动画片段，同时保持了它们输出的领域和多样性。代码和预训练权重将在我们的项目页面上公开提供。

1. Introduction

近年来，文本到图像（T2I）生成模型 [17, 21, 22, 25] 受到了前所未有的关注，不仅在研究界内外引起了广泛关注，而且它们提供了高视觉质量和文本驱动的可控性，即对于非研究人员用户（如艺术家和业余爱好者）来说，是进行人工智能辅助内容创作的低门槛入口。为了进一步激发现有的T2I生成模型的创造力，提出了一些轻量级的个性化方法，例如 DreamBooth [24] 和 LoRA [13]，它们可以使这些模型在小型数据集上进行定制微调，使用像RTX3080这样的消费级设备（如带有RTX3080的笔记本电脑），之后这些模型就能够生成具有显著提升质量的定制内容。通过这种方式，用户可以以非常低的成本向预训练的T2I模型引入新的概念或风格，从而在诸如CivitAI [4] 和 Huggingface [8] 等模型共享平台上贡献出许多由艺术家和业余爱好者贡献的个性化模型。

尽管使用 DreamBooth 或 LoRA 训练的个性化文本到图像模型已经通过其非凡的视觉质量成功吸引了注意，但它们的输出是静态图像。换句话说，缺乏时间自由度。考虑到动画的广泛应用，我们想知道是否可以将大多数现有的个性化 T2I 模型转变为生成动画图像的模型，同时保持原始的视觉质量。最近的一些通用文本到视频生成方法 [7, 12, 33] 提出将时间建模融入原始的 T2I 模型，并在视频数据集上调整模型。然而，对于个性化的 T2I 模型来说，这变得具有挑战性，因为用户通常无法承担敏感的超参数调整、个性化视频收集和大量的计算资源。

在这项工作中，我们提出了一个通用方法，称为 AnimateDiff，可以使任何个性化的T2I 模型具备生成动画图像的能力，无需进行模型特定的调整工作，并且在时间上实现吸引人的内容一致性。考虑到大多数个性化的 T2I 模型都是从同一个基础模型衍生而来的（例如 Stable Diffusion [22]），并且针对每个个性化领域收集相应的视频是不现实的，因此我们设计了一个运动建模模块，可以一劳永逸地为大多数个性化的T2I 模型添加动画功能。具体来说，我们将一个运动建模模块引入到基础的 T2I 模型中，然后在大规模视频剪辑 [1] 数据集上进行微调，学习合理的运动先验知识。值得注意的是，基础模型的参数保持不变。在微调之后，我们证明了衍生的个性化 T2I 模型也能从学习到的良好运动先验中受益，产生平滑且吸引人的动画。换句话说，运动建模模块能够为所有相应的个性化 T2I 模型添加动画功能，而无需进一步收集额外数据或进行定制训练。

我们对几个代表性的 DreamBooth [24] 和 LoRA [13] 模型进行了评估，涵盖了动漫图片和逼真照片。在没有特定调整的情况下，大多数个性化的 T2I 模型可以通过插入训练良好的运动建模模块来直接实现动画化。在实践中，我们还发现，对于运动建模模块来说，沿着时间维度的普通注意力足以学习到合适的运动先验知识。我们还展示了这些运动先验知识可以泛化到诸如3D卡通和2D动漫等领域。因此，我们的 AnimateDiff 可以成为个性化动画的一个简单但有效的基线，用户只需承担个性化图像模型的成本，便可以快速获得个性化动画。

2. Related Works

Text-to-image diffusion models. 近年来，文本到图像（T2I）扩散模型在研究界和更广泛的领域都受到了极大的关注，得益于大规模的文本-图像配对数据

最低0.47元/天解锁文章

DrYJ

关注

18
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫