[2410.12822] AVID: Adapting Video Diffusion Models to World Models
解决的问题
在不改变原预训练模型参数的情况下,将不带 action 的预训练视频扩散模型改造为 world model。
Previous Method
arxiv.org/pdf/2306.01872 提出组合预训练模型和适配器模型来实现不改变原预训练模型参数下来适应特定应用场景。
ϵ
P
o
E
(
X
i
,
c
)
=
ϵ
p
r
e
(
X
i
,
i
,
c
)
+
ϵ
a
d
a
p
t
(
X
i
,
i
,
c
)
\epsilon_{PoE}(X_i,c) =\epsilon_{pre}(X_i,i,c)+\epsilon_{adapt}(X_i,i,c)
ϵPoE(Xi,c)=ϵpre(Xi,i,c)+ϵadapt(Xi,i,c)
但问题在于将二者简单的相加,可能会破坏原始的去噪假设,由此产生了 bias。
Method
AVID 并不试图去训练两个模型,而是使用预训练模型的输出去训练去噪损失的适配器。
适配器是一个 3D UNet,接受噪声视频、预训练模型的噪声预测和初始图像作为输入,生成一个掩码和适配器的噪声预测;掩码是通过 Sigmoid 函数限制在
[
0
,
1
]
[0,1]
[0,1] 之间,动态调整预训练模型和适配器输出的权重,取决于原去噪的哪些部分会被新的结果替代。