trackgo 学习笔记

还没开源

        可控视频生成仍然是一项极具挑战性的任务。首要挑 战是精确控制,包括管理目标运动对象及其轨迹。现有 方法往往难以实现对这些元素的精确控制。例如, DragAnything(Wu 等人,2024 年)利用中心点和高斯 图引导目标对象沿着预定义的路径移动。然而,它无法 有效控制部分或细粒度物体的移动。另一种方法是 Boximator(Wang 等人,2024a),它利用边界框来决 定运动控制。它使用一个框来指定目标区域,框的运动 序列引导目标的运动。遗憾的是,边界框通常包含冗余 区域,这会干扰目标的运动,并破坏生成视频中背景的 连贯性。第二个挑战是效率。现有的工作通常会以大幅 增加模型参数数量的 方式来满足企业条件。例如, DragAny- thing 采 用 了 ControlNet ( Zhang 、 Rao 和 Agrawala,2023 年)的架构,而 DragNUWA(Yin 等 ,2023 年)则采用了重编码器,将引导信号映射到预 训练模型的潜在空间中。这些设计选择不可避免地导致 推理时间变慢,从而阻碍了这些模型在实际应用中的实 际部署。

 TrackGo 是一种用于生成可控视频的新 型框架,它利用用户输入来指导视频序列的生成。 TrackGo 使用用户提供的自由形式遮罩和箭头分别定 义目标区域和运动轨迹。这种方法包括两个阶段:点 轨迹生成和条件视频生成。在第一阶段,TrackGo 会自 动从用户定义的遮罩和箭头中提取点轨迹。这些轨迹 是视频生成的精确蓝图。在第二阶段,我们使用稳定 视频扩散模型(SVD)(Blattmann 等人,2023a)作 为基础模型,同时使用编码器对运动信息进行编码。 为了确保我们的模型能精确地进行引导,我们引入了 新颖的 TrackAdapter。该适配器可有效修改预训练视 频生成模型的现有时间自我注意层,以适应新的条件 ,从而增强模型对生成视频的控制。

    稳定视频扩散模型中最后一个时间自我注意层的注意 图可视化。注意图中的高亮区域与视频中的移动区域相对应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI算法网奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值