Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation
motivation:
t2v两个挑战:缺乏大规模高质量文本视频数据、时间维度建模较为复杂
基于像素的t2v需要妥协,先生成低分辨率视频,然后超分插帧
contribution:
提出 a parameter-free temporal shift module(无参数的时间偏移模块)
method
temporal shift
将相邻信息与当前帧混合来处理空间和时间信息
Z
∈
R
C
×
F
×
H
×
W
Z\in\mathbb{R}^{C\times F\times H\times W}
Z∈RC×F×H×W为输入,
Z
i
∈
R
C
×
H
×
W
Z_i\in\mathbb{R}^{C\times H\times W}
Zi∈RC×H×W表示第
i
i
i帧,沿通道维度分解为
Z
i
1
Z_i^1
Zi1、
Z
i
2
Z_i^2
Zi2、
Z
i
3
Z_i^3
Zi3,其中
Z
i
j
∈
R
C
3
×
H
×
W
Z_{i}^{j}\in\mathbb{R}^{\frac{C}{3}\times H\times W}
Zij∈R3C×H×W
第
i
i
i帧输出如下:
temporal shift模块加在2D ResNet block模块中。
experiments