【论文+视频控制】23.08.DragNUWA1.5：通过集成文本、图像和轨迹来进行视频生成中的细粒度控制（24.01.08在stable video diffusion开源模型）

本文链接：https://blog.csdn.net/imwaters/article/details/135775738

论文链接：DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
代码：https://github.com/ProjectNUWA/DragNUWA
在这里插入图片描述

一、简介

中国科学技术大学+微软亚洲研究院在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法
在这里插入图片描述
提出了同时（simultaneously ）引入文本、图像和轨迹信息，从语义（semantic）、空间（spatial）和时间角度（temporal perspectives） 对视频内容进行·细粒度控制（fine-grained control）。。
为了解决当前研究中开放域轨迹控制（open-domain trajectory control ）限制的问题，我们提出了三个方面的轨迹建模
一个轨迹采样器（TS，a Trajectory Sampler）：保证任意轨迹（arbitrary trajectories,）的开放域控制
一个多尺度融合（MF，a Multiscale Fusion）：不同细粒度(granularities)的控制轨迹
自适应训练策略（AT, Adaptive Training）: 生成一致的（consistent）的视频。

在这里插入图片描述

二、主要方法

DragNUWA训练流程概述。DragNUWA支持三种可选输入：文本p、图像s和轨迹g，并专注于从三个方面设计轨迹。首先，轨迹采样器（TS）从开放域视频流中动态采样轨迹。其次，多尺度融合（MF）将轨迹与UNet架构的每个块中的文本和图像深度集成。最后，自适应训练（AT）将模型从光流条件调整为用户友好的轨迹。最终，DragNUWA能够处理具有多个对象及其复杂轨迹的开放域视频。
在这里插入图片描述