MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记_motiondirector: motion customization of text-to-vi-CSDN博客

本文链接：https://blog.csdn.net/kangxi11122344/article/details/133869937

MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记

method
experiments

motivation： 视频生成包括motion（运动）和appearance（外观）两点，之前的方法学习到的运动概念往往与训练视频中有限的外观相结合（过拟合到训练数据的外观上），很难将特定的运动推广到其他外观。
contribution：
将特定的motion（运动）推广到各种appearance（外观）
提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective（外观去偏时间训练目标），将外观和运动的学习解耦

method

之前的自适应方法进行motion customization（运动订制）：full model tuning（整个模型）、parameter-efficient tuning of additional layers（附加层参数高效调优）、Low-Rank Adaptions（低秩适应，LoRA）

Low-Rank Adaption

提出的目的：使预先训练的大型语言模型适应下游任务
做法：采用低秩分解技术将权重矩阵 W 更新为：
$W=W_0+\Delta W=W_0+BA$
$W_0\in\mathbb{R}^{d\times k}$ 表示预训练模型的原始权重， $B\in\mathbb{R}^{d\times r}$ 和 $A\in\mathbb{R}^{r\times k}$ 表示low-rank因子，其中 $r$ 远小于原始维度 $d$ 和 $k$ 。
作用：减小计算量

Dual-path low-rank adaptions

在这里插入图片描述
在去噪过程中，空间和时间信息逐渐耦合，直接学习和拟合参考视频中的运动将不可避免地导致拟合参考视频有限的外观（想学运动，但会过拟合到外观上）
双路径分别学习运动和外观

Spatial path

将LoRA注入到spatial transformers中，注入self-attention 层和 feed-forward层中，而不是cross-attention层（防止影响文本和像素对应）
在每个训练步骤中spatial LoRA在随机单一帧上训练，拟合参考视频外观，忽略其运动
$\mathcal{L}_{spatial}=\mathbb{E}_{z_0,y,\epsilon,t,i\sim\mathcal{U}(0,F)}\left[\|\epsilon-\epsilon_\theta(z_{t,i},t,\tau_\theta(y))\|_2^2\right]$

Temporal path

将temporal LoRA 注入到temporal transformer的self-attention和feed-forward层
在spatial tramsformer也注入LoRA层（不训练），与spatial path中训练的LoRA共享相同的权重（忽略训练数据中的appearance）
简单的基于temporal loss训练
$\mathcal{L}_{org-temp}=\mathbb{E}_{z_0,y,\epsilon\sim\mathcal{N}(0,I),t\sim\mathcal{U}(0,T)}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right]$
在时间路径中的噪声预测仍然在一定程度上受到外观的影响。
在这里插入图片描述
采样的四个视频
以step 0 为例，同一视频 的视频按照帧的顺序连接。
latent code之间的内部连通性结构更容易受到运动的影响，而latent code集之间的距离主要受外观差异的影响
12 和 34 运动相同，连通性结构相同（连起来形状相似）
2和3运动不同（连起来形状差距大），外观相似（两个点集距离相同）

为了进一步将运动与外观解耦，提出了消除噪声和预测噪声之间的appearance bias（外观偏差），并计算它们的appearance-debiased temporal loss（外观去偏时间损失）。
$\phi(\epsilon_{i})=\sqrt{\beta^2+1}\epsilon_{i}-\beta\epsilon_{anchor}$
其中 $\beta$ 是控制分散强度的强度因子， $\epsilon_{anchor}$ 是来自同一训练数据的帧之间的锚点(anchor among the frames帧之间的均值？)
appearance-debiased temporal loss：
$\mathcal{L}_{ad-temp}=\mathbb{E}_{z_0,y,\epsilon,t}\left[\|\phi(\epsilon)-\phi(\epsilon_\theta(z_t,t,\tau_\theta(y)))\|_2^2\right]$
损失函数是temporal loss和decentralized temporal loss的组合
$\mathcal{L}_{temporal}=\mathcal{L}_{org\text{-}temp}+\mathcal{L}_{ad\text{-}temp}$

experiments

在这里插入图片描述第一种是直接应用 vanilla 基础模型，第二种是以耦合方式使用 LoRA 调整基础模型，第三种是所提出的双路径方法
Tune-A-Video 无法与学习的运动产生不同的外观，例如猴子玩高尔夫。
预训练的基础模型 ZeroScope 正确地生成了外观，但缺乏将高尔夫俱乐部摆动的真实运动作为参考视频中的所需运动。
耦合的调整模型可以生成所需的运动，但学习到的运动与过多的外观信息相结合，导致视频中生成的主题更像是人类而不是猴子。
最后两行表明，所提出的双路径 LoRA 可以避免损害外观的生成，并且所提出的外观去偏时间损失可以更好地增强所需运动的学习。

在这里插入图片描述
耦合调整会破坏预训练模型的外观多样性，而我们的双路径方法将保留它并实现最高的运动保真度。