DIFF-FOLEY: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models 阅读笔记

最新推荐文章于 2024-09-17 17:11:17 发布

laowanxuan

最新推荐文章于 2024-09-17 17:11:17 发布

阅读量705

点赞数 20

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laowanxuan/article/details/138620569

版权

目录

V2A相比于T2A的好处

数据对更容易获取（audio-video pairs are readily available on the Internet）
可以控制生成的foley音频和视频之间的时间同步

V2A的主要目标

Semantic content matching
Temporal synchronization

现有V2A方法及其局限性

ResNet提取RGB和Flow+GAN
SpecVQGAN
Im2Wav

框架

整体框架流程图

总体流程

它通过CAVP学习了更多的语义和时间上对齐的视听特征，捕捉到了视听模态之间的微妙联系。
在光谱图潜在空间上训练一个以对齐的CAVP视觉特征为条件的LDM

技术细节

Contrastive Audio-Visual Pretraining（CAVP）

先用视频编码器 $f_A(\cdot)$ 和音频编码器 $f_V(\cdot)$ 提取视频特征 $E_v$ 和音频特征 $E_a$ ，经过时间池化后得到在这里插入图片描述
,为了对齐视频-音频特征（语义对齐和时间同步），我们有以下两个目标函数：

在这里插入图片描述

$L_s$ 是对不同的视频提取视频-音频特征对，Ns为视频的数量。

在这里插入图片描述

$L_{\tau }$ 是对同一视频的不同时间段提取视频-音频特征对，Ns为视频段的数量。

LDM with Aligned Visual Representation

从CVAP中获取与音频对齐的视频特征Ev，将这个特征通过编码层 $\tau_{\theta}$ 将Ev映射到一个合适的维度。DM前向过程不断加噪，反向过程在Ev条件的基础上进行采样，最终得到八秒的音频输出。

Temporal Split & Merge Augmentation

把不同视频中提取的两个视频/音频拼接起来，构成新的视频/音频，可以有效提升音-视频数据对的数量。

Double Guidance（CG和CFG）
- CG（classifier guidance）：训练一个分类器来指导反向过程
- CFG（classifier free guidance）：条件分数估计和无条件分数估计的线性组合来指导反向过程
双重指导：使用CG训练一个对其分类器指导音-视频对在语义和时间上的对齐，再使用CFG随机放弃条件Ev

创新点

CAVP模块对齐视频-音频数据
使用Double Guidance指导LDM的反向过程

局限性

未在超大规模的数据集上测试
扩散模型比GAN慢

关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

laowanxuan CSDN认证博客专家 CSDN认证企业博客

码龄5年

9: 原创

106万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

201: 积分

102: 粉丝

104: 获赞

16: 评论

248: 收藏

私信

关注

热门文章

分类专栏

计算机网络 1篇

最新评论

[代码复现]BrainGNN: Interpretable Brain Graph Neural Network for fMRI Analysis
Helen_0726: 博主请问您用的是pycharm社区版还是专业版呐
[代码复现]BrainGNN: Interpretable Brain Graph Neural Network for fMRI Analysis
laowanxuan: 没遇到过你dubug的时候看看这个对象有没有这个属性
[代码复现]BrainGNN: Interpretable Brain Graph Neural Network for fMRI Analysis
Helen_0726: ====================================================================== ERROR: Failure: AttributeError ('ABIDEDataset' object has no attribute 'data') 求问路过的大大又遇到这个报错的吗，看不懂这是为啥，好难过，卡了好久了
Audioldm1 和 Audioldm2 阅读笔记
CSDN-Ada助手: 恭喜您在博客上发布了“Audioldm1 和 Audioldm2 阅读笔记”这篇文章！持续创作是提升自己的好方法，希望您可以继续保持这样的创作热情。或许在下一篇博客中，可以分享一些自己的阅读心得，或者加入一些个人观点，让读者更加了解您的独特见解。期待您的下一篇作品！
[代码复现]BrainGNN: Interpretable Brain Graph Neural Network for fMRI Analysis
CSDN-Ada助手: 恭喜您发布了新的博客文章！看到您对BrainGNN的代码复现，我感到非常兴奋。这篇文章对于理解脑功能磁共振成像分析有着重要意义。希望您能继续保持创作的热情和努力，为我们带来更多有价值的内容。或许下一步可以考虑深入探讨该模型在不同数据集上的应用效果，或者尝试结合其他领域的方法进行比较分析。期待您更多的精彩作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。