AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

本文提出了一种通用方法,通过在现有个性化文本到图像模型中嵌入运动建模模块,实现动画化功能。这种方法利用运动先验训练模块,无需大量个性化数据,适用于DreamBooth和LoRA等模型的扩展,以生成多样化和个性化的动画图像。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

本文提出了一个模型可以将生成的静态图像与运动动力学相结合。我们提出了一个实用的框架,使大多数现有的个性化文本到图像模型一次动画化该框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频片段上训练它以提取合理的运动先验。一旦经过训练,通过简单地注入这个运动建模模块,从同一基础 T2I 派生的所有个性化版本都很容易成为产生多样化和个性化动画图像的文本驱动模型。

1 介绍

虽然使用 DreamBooth 或 LoRA 训练的个性化文本到图像模型已经成功地通过它们的非凡的视觉质量引起了注意力,但它们的输出是静态图像。也就是说,缺乏时间自由度。我们提出一种通用型方法以实现为任何个性化 T2I 模型生成动画图像的能力,不需要特定于模型的调整工作并随着时间的推移实现吸引人的内容一致性。大多数的T2I都是来自相同的模型,但是想到做到不同的个性化就需要不同的数据集来训练,显然这是不现实的,所以转为设计一个运动建模模块,他可以引入到T2I模型中然后微调以达到个性化的要求。

2 方法

个性化图像生成

在个性化图像生成方面,DreamBooth和LoRA是两个代表性且广泛使用的方法。

为了将新领域的概念、风格等引入预训练的T2I模型,最简单的方法是在该特定领域的图像上微调该模型。然而,直接微调模型而没有正则化通常会导致过度拟合或灾难性遗忘,特别是当数据集规模较小时。

为了解决这个问题,DreamBooth采用了一种正则化方法,使用稀有字符串作为指示来表示目标域,并通过添加原始T2I模型生成的图像来增强数据集。这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值