MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记

MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记


在这里插入图片描述
motivation: 视频生成包括motion(运动)和appearance(外观)两点,之前的方法学习到的运动概念往往与训练视频中有限的外观相结合(过拟合到训练数据的外观上),很难将特定的运动推广到其他外观。
contribution:
将特定的motion(运动)推广到各种appearance(外观)
提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective(外观去偏时间训练目标),将外观和运动的学习解耦

method

之前的自适应方法进行motion customization(运动订制):full model tuning(整个模型)、parameter-efficient tuning of additional layers(附加层参数高效调优)、Low-Rank Adaptions(低秩适应,LoRA)

Low-Rank Adaption

提出的目的:使预先训练的大型语言模型适应下游任务
做法:采用低秩分解技术将权重矩阵 W 更新为:
W = W 0 + Δ W = W 0 + B A W=W_0+\Delta W=W_0+BA W=W0+ΔW=W0+BA
W 0 ∈ R d × k W_0\in\mathbb{R}^{d\times k} W0Rd×k表示预训练模型的原始权重, B ∈ R d × r B\in\mathbb{R}^{d\times r} BRd×r A ∈ R r × k A\in\mathbb{R}^{r\times k} ARr×k表示low-rank因子,其中 r r r 远小于原始维度 d d d k k k
作用:减小计算量

Dual-path low-rank adaptions

在这里插入图片描述
在去噪过程中,空间和时间信息逐渐耦合,直接学习和拟合参考视频中的运动将不可避免地导致 拟合参考视频有限的外观(想学运动,但会过拟合到外观上)
双路径分别学习运动和外观

Spatial path

将LoRA注入到spatial transformers中,注入self-attention 层 和 feed-forward层中,而不是cross-attention层(防止影响文本和像素对应)
在每个训练步骤中spatial LoRA在随机单一帧上训练,拟合参考视频外观,忽略其运动
L s p a t i a l = E z 0 , y , ϵ , t , i ∼ U ( 0 , F ) [ ∥ ϵ − ϵ θ ( z t , i , t , τ θ ( y ) ) ∥ 2 2 ] \mathcal{L}_{spatial}=\mathbb{E}_{z_0,y,\epsilon,t,i\sim\mathcal{U}(0,F)}\left[\|\epsilon-\epsilon_\theta(z_{t,i},t,\tau_\theta(y))\|_2^2\right] Lspatial=Ez0,y,ϵ,t,iU(0,F)[ϵϵθ(zt,i,t,τθ(y))22]

Temporal path

将temporal LoRA 注入到temporal transformer的self-attention和feed-forward层
在spatial tramsformer也注入LoRA层(不训练),与spatial path中训练的LoRA共享相同的权重(忽略训练数据中的appearance)
简单的基于temporal loss训练
L o r g − t e m p = E z 0 , y , ϵ ∼ N ( 0 , I ) , t ∼ U ( 0 , T ) [ ∥ ϵ − ϵ θ ( z t , t , τ θ ( y ) ) ∥ 2 2 ] \mathcal{L}_{org-temp}=\mathbb{E}_{z_0,y,\epsilon\sim\mathcal{N}(0,I),t\sim\mathcal{U}(0,T)}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right] Lorgtemp=Ez0,y,ϵN(0,I),tU(0,T)[ϵϵθ(zt,t,τθ(y))22]
在时间路径中的噪声预测仍然在一定程度上受到外观的影响。
在这里插入图片描述
采样的四个视频
以step 0 为例,同一视频 的视频按照帧的顺序连接。
latent code之间的内部连通性结构更容易受到运动的影响,而latent code集之间的距离主要受外观差异的影响
12 和 34 运动相同,连通性结构相同(连起来形状相似)
2和3运动不同(连起来形状差距大),外观相似(两个点集距离相同)

为了进一步将运动与外观解耦,提出了消除噪声和预测噪声之间的appearance bias(外观偏差),并计算它们的appearance-debiased temporal loss(外观去偏时间损失)。
ϕ ( ϵ i ) = β 2 + 1 ϵ i − β ϵ a n c h o r \phi(\epsilon_{i})=\sqrt{\beta^2+1}\epsilon_{i}-\beta\epsilon_{anchor} ϕ(ϵi)=β2+1 ϵiβϵanchor
其中 β \beta β是控制分散强度的强度因子, ϵ a n c h o r \epsilon_{anchor} ϵanchor是来自同一训练数据的帧之间的锚点(anchor among the frames帧之间的均值?)
appearance-debiased temporal loss:
L a d − t e m p = E z 0 , y , ϵ , t [ ∥ ϕ ( ϵ ) − ϕ ( ϵ θ ( z t , t , τ θ ( y ) ) ) ∥ 2 2 ] \mathcal{L}_{ad-temp}=\mathbb{E}_{z_0,y,\epsilon,t}\left[\|\phi(\epsilon)-\phi(\epsilon_\theta(z_t,t,\tau_\theta(y)))\|_2^2\right] Ladtemp=Ez0,y,ϵ,t[ϕ(ϵ)ϕ(ϵθ(zt,t,τθ(y)))22]
损失函数是temporal loss和decentralized temporal loss的组合
L t e m p o r a l = L o r g - t e m p + L a d - t e m p \mathcal{L}_{temporal}=\mathcal{L}_{org\text{-}temp}+\mathcal{L}_{ad\text{-}temp} Ltemporal=Lorg-temp+Lad-temp

experiments

在这里插入图片描述第一种是直接应用 vanilla 基础模型,第二种是以耦合方式使用 LoRA 调整基础模型,第三种是所提出的双路径方法
Tune-A-Video 无法与学习的运动产生不同的外观,例如猴子玩高尔夫。
预训练的基础模型 ZeroScope 正确地生成了外观,但缺乏将高尔夫俱乐部摆动的真实运动作为参考视频中的所需运动。
耦合的调整模型可以生成所需的运动,但学习到的运动与过多的外观信息相结合,导致视频中生成的主题更像是人类而不是猴子。
最后两行表明,所提出的双路径 LoRA 可以避免损害外观的生成,并且所提出的外观去偏时间损失可以更好地增强所需运动的学习。


在这里插入图片描述
耦合调整会破坏预训练模型的外观多样性,而我们的双路径方法将保留它并实现最高的运动保真度。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值