trackgo 学习笔记

最新推荐文章于 2024-08-30 23:13:02 发布

AI算法网奇

最新推荐文章于 2024-08-30 23:13:02 发布

阅读量313

点赞数 2

分类专栏：深度学习基础文章标签：学习笔记

本文链接：https://blog.csdn.net/jacke121/article/details/141635235

版权

深度学习基础专栏收录该内容

175 篇文章 17 订阅

订阅专栏

还没开源

可控视频生成仍然是一项极具挑战性的任务。首要挑战是精确控制，包括管理目标运动对象及其轨迹。现有方法往往难以实现对这些元素的精确控制。例如， DragAnything（Wu 等人，2024 年）利用中心点和高斯图引导目标对象沿着预定义的路径移动。然而，它无法有效控制部分或细粒度物体的移动。另一种方法是 Boximator（Wang 等人，2024a），它利用边界框来决定运动控制。它使用一个框来指定目标区域，框的运动序列引导目标的运动。遗憾的是，边界框通常包含冗余区域，这会干扰目标的运动，并破坏生成视频中背景的连贯性。第二个挑战是效率。现有的工作通常会以大幅增加模型参数数量的方式来满足企业条件。例如， DragAny- thing 采用了 ControlNet （ Zhang 、 Rao 和 Agrawala，2023 年）的架构，而 DragNUWA（Yin 等，2023 年）则采用了重编码器，将引导信号映射到预训练模型的潜在空间中。这些设计选择不可避免地导致推理时间变慢，从而阻碍了这些模型在实际应用中的实际部署。

TrackGo 是一种用于生成可控视频的新型框架，它利用用户输入来指导视频序列的生成。 TrackGo 使用用户提供的自由形式遮罩和箭头分别定义目标区域和运动轨迹。这种方法包括两个阶段：点轨迹生成和条件视频生成。在第一阶段，TrackGo 会自动从用户定义的遮罩和箭头中提取点轨迹。这些轨迹是视频生成的精确蓝图。在第二阶段，我们使用稳定视频扩散模型（SVD）（Blattmann 等人，2023a）作为基础模型，同时使用编码器对运动信息进行编码。为了确保我们的模型能精确地进行引导，我们引入了新颖的 TrackAdapter。该适配器可有效修改预训练视频生成模型的现有时间自我注意层，以适应新的条件，从而增强模型对生成视频的控制。

稳定视频扩散模型中最后一个时间自我注意层的注意图可视化。注意图中的高亮区域与视频中的移动区域相对应