MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记

motivation: 视频生成包括motion(运动)和appearance(外观)两点,之前的方法学习到的运动概念往往与训练视频中有限的外观相结合(过拟合到训练数据的外观上),很难将特定的运动推广到其他外观。
contribution:
将特定的motion(运动)推广到各种appearance(外观)
提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective(外观去偏时间训练目标),将外观和运动的学习解耦
method
之前的自适应方法进行motion customization(运动订制):full model tuning(整个模型)、parameter-efficient tuning of additional layers(附加层参数高效调优)、Low-Rank Adaptions(低秩适应,LoRA)
Low-Rank Adaption
提出的目的:使预先训练的大型语言模型适应下游任务
做法:采用低秩分解技术将权重矩阵 W 更新为:
W
=
W
0
+
Δ
W
=
W
0
+
B
A
W=W_0+\Delta W=W_0+BA
W=W0+ΔW=W0+BA
W
0
∈
R
d
×
k
W_0\in\mathbb{R}^{d\times k}
W0∈Rd×k表示预训练模型的原始权重,
B
∈
R
d
×
r
B\in\mathbb{R}^{d\times r}
B∈Rd×r和
A
∈
R
r
×
k
A\in\mathbb{R}^{r\times k}
A∈Rr×k表示low-rank因子,其中
r
r
r 远小于原始维度
d
d
d 和
k
k
k。
作用:减小计算量
Dual-path low-rank adaptions
在去噪过程中,空间和时间信息逐渐耦合,直接学习和拟合参考视频中的运动将不可避免地导致 拟合参考视频有限的外观(想学运动,但会过拟合到外观上)
双路径分别学习运动和外观
Spatial path
将LoRA注入到spatial transformers中,注入self-attention 层 和 feed-forward层中,而不是cross-attention层(防止影响文本和像素对应)
在每个训练步骤中spatial LoRA在随机单一帧上训练,拟合参考视频外观,忽略其运动
L
s
p
a
t
i
a
l
=
E
z
0
,
y
,
ϵ
,
t
,
i
∼
U
(
0
,
F
)
[
∥
ϵ
−
ϵ
θ
(
z
t
,
i
,
t
,
τ
θ
(
y
)
)
∥
2
2
]
\mathcal{L}_{spatial}=\mathbb{E}_{z_0,y,\epsilon,t,i\sim\mathcal{U}(0,F)}\left[\|\epsilon-\epsilon_\theta(z_{t,i},t,\tau_\theta(y))\|_2^2\right]
Lspatial=Ez0,y,ϵ,t,i∼U(0,F)[∥ϵ−ϵθ(zt,i,t,τθ(y))∥22]
Temporal path
将temporal LoRA 注入到temporal transformer的self-attention和feed-forward层
在spatial tramsformer也注入LoRA层(不训练),与spatial path中训练的LoRA共享相同的权重(忽略训练数据中的appearance)
简单的基于temporal loss训练
L
o
r
g
−
t
e
m
p
=
E
z
0
,
y
,
ϵ
∼
N
(
0
,
I
)
,
t
∼
U
(
0
,
T
)
[
∥
ϵ
−
ϵ
θ
(
z
t
,
t
,
τ
θ
(
y
)
)
∥
2
2
]
\mathcal{L}_{org-temp}=\mathbb{E}_{z_0,y,\epsilon\sim\mathcal{N}(0,I),t\sim\mathcal{U}(0,T)}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right]
Lorg−temp=Ez0,y,ϵ∼N(0,I),t∼U(0,T)[∥ϵ−ϵθ(zt,t,τθ(y))∥22]
在时间路径中的噪声预测仍然在一定程度上受到外观的影响。
采样的四个视频
以step 0 为例,同一视频 的视频按照帧的顺序连接。
latent code之间的内部连通性结构更容易受到运动的影响,而latent code集之间的距离主要受外观差异的影响
12 和 34 运动相同,连通性结构相同(连起来形状相似)
2和3运动不同(连起来形状差距大),外观相似(两个点集距离相同)
为了进一步将运动与外观解耦,提出了消除噪声和预测噪声之间的appearance bias(外观偏差),并计算它们的appearance-debiased temporal loss(外观去偏时间损失)。
ϕ
(
ϵ
i
)
=
β
2
+
1
ϵ
i
−
β
ϵ
a
n
c
h
o
r
\phi(\epsilon_{i})=\sqrt{\beta^2+1}\epsilon_{i}-\beta\epsilon_{anchor}
ϕ(ϵi)=β2+1ϵi−βϵanchor
其中
β
\beta
β是控制分散强度的强度因子,
ϵ
a
n
c
h
o
r
\epsilon_{anchor}
ϵanchor是来自同一训练数据的帧之间的锚点(anchor among the frames帧之间的均值?)
appearance-debiased temporal loss:
L
a
d
−
t
e
m
p
=
E
z
0
,
y
,
ϵ
,
t
[
∥
ϕ
(
ϵ
)
−
ϕ
(
ϵ
θ
(
z
t
,
t
,
τ
θ
(
y
)
)
)
∥
2
2
]
\mathcal{L}_{ad-temp}=\mathbb{E}_{z_0,y,\epsilon,t}\left[\|\phi(\epsilon)-\phi(\epsilon_\theta(z_t,t,\tau_\theta(y)))\|_2^2\right]
Lad−temp=Ez0,y,ϵ,t[∥ϕ(ϵ)−ϕ(ϵθ(zt,t,τθ(y)))∥22]
损失函数是temporal loss和decentralized temporal loss的组合
L
t
e
m
p
o
r
a
l
=
L
o
r
g
-
t
e
m
p
+
L
a
d
-
t
e
m
p
\mathcal{L}_{temporal}=\mathcal{L}_{org\text{-}temp}+\mathcal{L}_{ad\text{-}temp}
Ltemporal=Lorg-temp+Lad-temp
experiments
第一种是直接应用 vanilla 基础模型,第二种是以耦合方式使用 LoRA 调整基础模型,第三种是所提出的双路径方法
Tune-A-Video 无法与学习的运动产生不同的外观,例如猴子玩高尔夫。
预训练的基础模型 ZeroScope 正确地生成了外观,但缺乏将高尔夫俱乐部摆动的真实运动作为参考视频中的所需运动。
耦合的调整模型可以生成所需的运动,但学习到的运动与过多的外观信息相结合,导致视频中生成的主题更像是人类而不是猴子。
最后两行表明,所提出的双路径 LoRA 可以避免损害外观的生成,并且所提出的外观去偏时间损失可以更好地增强所需运动的学习。
耦合调整会破坏预训练模型的外观多样性,而我们的双路径方法将保留它并实现最高的运动保真度。