- 博客(3)
- 收藏
- 关注
原创 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
虽然使用 DreamBooth 或 LoRA 训练的个性化文本到图像模型已经成功地通过它们的非凡的视觉质量引起了注意力,但它们的输出是静态图像。也就是说,缺乏时间自由度。我们提出一种通用型方法以实现为任何个性化 T2I 模型生成动画图像的能力,不需要特定于模型的调整工作并随着时间的推移实现吸引人的内容一致性。大多数的T2I都是来自相同的模型,但是想到做到不同的个性化就需要不同的数据集来训练,显然这是不现实的,所以转为设计一个运动建模模块,他可以引入到T2I模型中然后微调以达到个性化的要求。
2024-03-22 16:09:36 1690
原创 SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models
虽然T2I和T2V的发展很迅速,但是文本提示本质上的抽象的表达,很难准确的定义其复杂的语义,例如空间布局、姿势和形状。在本文中,我们介绍了 SparseCtrl,这是一种有效的方法,旨在通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。它在保留原始生成器的完整性的同时实现了辅助编码器。为了实现这一点,我们设计了一个条件编码器,配备了时间感知层,将稀疏条件信号从条件关键帧传播到无条件帧。
2024-03-21 13:53:35 1750
原创 Text2Performer: Text-Driven Human Video Generation
现有的文本驱动任务大多需要依赖数量庞大的数据集来训练,虽然显示出的性能优越,但是在应用于某些特定任务时无法生成合理的结果。文本驱动的人类视频生成有几个挑战:1人体结构是铰接式的。2在执行复杂运动时,人体的外观应该保持不变。为了对复杂的人体运动进行建模,提出了一种新的连续VQ扩散器来对一系列有意义的姿态表示进行采样。
2024-03-20 15:48:15 1308
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人