【论文+视频控制】23.08.DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08在stable video diffusion开源模型)

论文链接:DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
代码https://github.com/ProjectNUWA/DragNUWA
在这里插入图片描述

一、简介

中国科学技术大学+微软亚洲研究院 在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法
在这里插入图片描述
提出了同时(simultaneously )引入文本、图像和轨迹信息,从语义(semantic)、空间(spatial)和时间角度(temporal perspectives) 对视频内容进行·细粒度控制(fine-grained control)。。
为了解决当前研究中开放域轨迹控制(open-domain trajectory control )限制的问题,我们提出了三个方面的轨迹建模
一个轨迹采样器TS,a Trajectory Sampler):保证任意轨迹(arbitrary trajectories,)的开放域控制
一个多尺度融合MF,a Multiscale Fusion):不同细粒度(granularities)的控制轨迹
自适应训练策略(AT, Adaptive Training): 生成一致的(consistent)的视频。

在这里插入图片描述

二、主要方法

DragNUWA训练流程概述。DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并专注于从三个方面设计轨迹。首先,轨迹采样器(TS)从开放域视频流中动态采样轨迹。其次,多尺度融合(MF)将轨迹与UNet架构的每个块中的文本和图像深度集成。最后,自适应训练(AT)将模型从光流条件调整为用户友好的轨迹。最终,DragNUWA能够处理具有多个对象及其复杂轨迹的开放域视频。
在这里插入图片描述

三、相关工作(需要的知识储备

其中 Stable Video Diffusion (开源)未在论文中出现,但是最近模型是根据其优化的

  1. 21.11.NUWA: 微软提出神经视觉世界创造的视觉合成预训练模型 Visual Synthesis Pre-training for Neural visUal World
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值