DIFF-FOLEY: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models 阅读笔记

V2A相比于T2A的好处
  • 数据对更容易获取(audio-video pairs are readily available on the Internet)

  • 可以控制生成的foley音频和视频之间的时间同步

V2A的主要目标
  • Semantic content matching

  • Temporal synchronization

现有V2A方法及其局限性
  • ResNet提取RGB和Flow+GAN
  • SpecVQGAN
  • Im2Wav
框架

整体框架流程图

总体流程
  • 它通过CAVP学习了更多的语义和时间上对齐的视听特征,捕捉到了视听模态之间的微妙联系。
  • 在光谱图潜在空间上训练一个以对齐的CAVP视觉特征为条件的LDM
技术细节
  • Contrastive Audio-Visual Pretraining(CAVP)

先用视频编码器 f A ( ⋅ ) f_A(\cdot) fA()和音频编码器 f V ( ⋅ ) f_V(\cdot) fV()提取视频特征 E v E_v Ev和音频特征 E a E_a Ea,经过时间池化后 得到在这里插入图片描述
,为了对齐视频-音频特征(语义对齐和时间同步),我们有以下两个目标函数:

在这里插入图片描述

L s L_s Ls是对不同的视频提取视频-音频特征对,Ns为视频的数量。

在这里插入图片描述

L τ L_{\tau } Lτ是对同一视频的不同时间段提取视频-音频特征对,Ns为视频段的数量。

  • LDM with Aligned Visual Representation

从CVAP中获取与音频对齐的视频特征Ev,将这个特征通过编码层 τ θ \tau_{\theta} τθ将Ev映射到一个合适的维度。DM前向过程不断加噪,反向过程在Ev条件的基础上进行采样,最终得到八秒的音频输出。

  • Temporal Split & Merge Augmentation

把不同视频中提取的两个视频/音频拼接起来,构成新的视频/音频,可以有效提升音-视频数据对的数量。

  • Double Guidance(CG和CFG)

    • CG(classifier guidance):训练一个分类器来指导反向过程

    • CFG(classifier free guidance):条件分数估计和无条件分数估计的线性组合来指导反向过程

      在这里插入图片描述

    双重指导:使用CG训练一个对其分类器指导音-视频对在语义和时间上的对齐,再使用CFG随机放弃条件Ev

创新点
  • CAVP模块 对齐视频-音频数据
  • 使用Double Guidance指导LDM的反向过程
局限性
  • 未在超大规模的数据集上测试
  • 扩散模型比GAN慢
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值