V2A相比于T2A的好处
-
数据对更容易获取(audio-video pairs are readily available on the Internet)
-
可以控制生成的foley音频和视频之间的时间同步
V2A的主要目标
-
Semantic content matching
-
Temporal synchronization
现有V2A方法及其局限性
- ResNet提取RGB和Flow+GAN
- SpecVQGAN
- Im2Wav
框架
总体流程
- 它通过CAVP学习了更多的语义和时间上对齐的视听特征,捕捉到了视听模态之间的微妙联系。
- 在光谱图潜在空间上训练一个以对齐的CAVP视觉特征为条件的LDM
技术细节
- Contrastive Audio-Visual Pretraining(CAVP)
先用视频编码器
f
A
(
⋅
)
f_A(\cdot)
fA(⋅)和音频编码器
f
V
(
⋅
)
f_V(\cdot)
fV(⋅)提取视频特征
E
v
E_v
Ev和音频特征
E
a
E_a
Ea,经过时间池化后 得到
,为了对齐视频-音频特征(语义对齐和时间同步),我们有以下两个目标函数:
L s L_s Ls是对不同的视频提取视频-音频特征对,Ns为视频的数量。
L τ L_{\tau } Lτ是对同一视频的不同时间段提取视频-音频特征对,Ns为视频段的数量。
- LDM with Aligned Visual Representation
从CVAP中获取与音频对齐的视频特征Ev,将这个特征通过编码层 τ θ \tau_{\theta} τθ将Ev映射到一个合适的维度。DM前向过程不断加噪,反向过程在Ev条件的基础上进行采样,最终得到八秒的音频输出。
- Temporal Split & Merge Augmentation
把不同视频中提取的两个视频/音频拼接起来,构成新的视频/音频,可以有效提升音-视频数据对的数量。
-
Double Guidance(CG和CFG)
-
CG(classifier guidance):训练一个分类器来指导反向过程
-
CFG(classifier free guidance):条件分数估计和无条件分数估计的线性组合来指导反向过程
双重指导:使用CG训练一个对其分类器指导音-视频对在语义和时间上的对齐,再使用CFG随机放弃条件Ev
-
创新点
- CAVP模块 对齐视频-音频数据
- 使用Double Guidance指导LDM的反向过程
局限性
- 未在超大规模的数据集上测试
- 扩散模型比GAN慢