【论文笔记】【CVPR2019】2.5D Visual Sound

最新推荐文章于 2023-11-08 17:27:26 发布

qq_21281385

最新推荐文章于 2023-11-08 17:27:26 发布

阅读量1.2k

点赞数 2

分类专栏：论文笔记文章标签： AI CVPR Finalist

原文链接：https://arxiv.org/pdf/1812.04204.pdf

版权

论文笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

2.5D Visual Sound

Abstract
I.Introduction
II.Related Work
III.Approach

Abstract

双耳音频可以使得听众能更好地感受音乐的情境。然而，获取双耳音频需要非凡的专业知识，以及设备。

利用视频，来把单声道音频转换为双声道
视觉有着重要的空间信息，音频和其有关联
这篇文章从未标注的视频中恢复这一联系
2.5D visual sound
我们网络学到的自我监督表示有利于视听源分离

I.Introduction

II.Related Work

从视频生成音频

循环网络[53]或条件生成对抗网络[7]可以为输入视频帧生成音频，而强大的模拟器可以为3D形状合成视听数据[51]。
基于视频的音频空间化

音频视频源分离

音频视频源分离介绍

盲分，只有一个通道，这是十分困难的
分离会变得容易，如果有多通道多个收音设备
传统分离：互信息[11]，子空间分析[41,35]，矩阵分解[34,39,13]和相关的起始[6,25]
最近使用深度学习

使用自监督学习

III.Approach

3.1 Dataset

3.2 Mono2Binaural Formulation

The interaural time difference (ITD)
The interaural level difference (ILD)
左耳信号 $x^L(t)$ ，右耳信号 $x^R(t)$ ，单声道信号 $x^M(t)=x^{L} (t)+x^R(t)$ 。失去了空间信息。如果想找到一个算法，来从单声道信号恢复到左耳和右耳信号，是十分困难的。因为单声道信号，缺少恢复的必要信息。这个必要信息可以从视频中获取。
我们不是直接预测两个通道，而是预测两个通道的差异
$x^{D}(t)=x^{L}(t)-x^{R}(t)$
进一步来说，我们在频率域上进行操作，对信号做 $x^M(t)$ STFT变换，目标是预测 $x^D(t)$ 。
$\mathbf{X}^{M}=\left\{\mathbf{X}_{t, f}^{M}\right\}_{t=1, f=1}^{T, F}, \quad \mathbf{X}^{D}=\left\{\mathbf{X}_{t, f}^{D}\right\}_{t=1, f=1}^{T, F}$
t是时间帧，f是频率槽序号。T和F是总数。
最后得到以下估计
$\tilde{x}^{L}(t)=\frac{x^{M}(t)+\tilde{x}^{D}(t)}{2}, \quad \tilde{x}^{R}(t)=\frac{x^{M}(t)-\tilde{x}^{D}(t)}{2}$

3.3. Mono2Binaural Network

在这里插入图片描述

从音频片段的中心的视频帧提取视觉特征

ResNet 4th block
$\times 1$ conv reshape, 仅仅改变滤波器维度。
将其展平为单个视觉特征向量

采用UNET 结构。

spectrogram 经过五个conv block 每个block stride=2.
经过encoder 之后，变为(T/32)×(F/32)×C
视觉特征向量现在重复(T/32)×(F/32)次，变为和encoder 后的特征维数相同。
在经过对应的decoder获得复数乘法频谱图掩模

$\tilde{\mathbf{x}}^{D}=\mathcal{M} \cdot \mathbf{x}^{M}$

3.4. Audio-Visual Source Separation

在这里插入图片描述

两段音频
把两段音频的双声道合并在一起
对着双声道音频提取音频特征
给定视觉特征，网络可以把原始的双声道恢复回来

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】【CVPR2019】2.5D Visual Sound

2.5D Visual SoundAbstractI.IntroductionII.Related Work从视频生成音频音频视频源分离使用自监督学习III.Approach3.1 Dataset3.2 Mono2Binaural Formulation3.3. Mono2Binaural Network3.4. Audio-Visual Source SeparationAbstract双耳...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。