2.5D Visual Sound
Abstract
双耳音频可以使得听众能更好地感受音乐的情境。然而,获取双耳音频需要非凡的专业知识,以及设备。
- 利用视频,来把单声道音频转换为双声道
- 视觉有着重要的空间信息,音频和其有关联
- 这篇文章从未标注的视频中恢复这一联系
- 2.5D visual sound
- 我们网络学到的自我监督表示有利于视听源分离
I.Introduction
II.Related Work
从视频生成音频
- 循环网络[53]或条件生成对抗网络[7]可以为输入视频帧生成音频,而强大的模拟器可以为3D形状合成视听数据[51]。
- 基于视频的音频空间化
音频视频源分离
- 盲分,只有一个通道,这是十分困难的
- 分离会变得容易,如果有多通道多个收音设备
- 传统分离:互信息[11],子空间分析[41,35],矩阵分解[34,39,13]和相关的起始[6,25]
- 最近使用深度学习
使用自监督学习
III.Approach
3.1 Dataset
3.2 Mono2Binaural Formulation
- The interaural time difference (ITD)
- The interaural level difference (ILD)
- 左耳信号 x L ( t ) x^L(t) xL(t),右耳信号 x R ( t ) x^R(t) xR(t),单声道信号 x M ( t ) = x L ( t ) + x R ( t ) x^M(t)=x^{L} (t)+x^R(t) xM(t)=xL(t)+xR(t)。失去了空间信息。如果想找到一个算法,来从单声道信号恢复到左耳和右耳信号,是十分困难的。因为单声道信号,缺少恢复的必要信息。这个必要信息可以从视频中获取。
- 我们不是直接预测两个通道,而是预测两个通道的差异
- x D ( t ) = x L ( t ) − x R ( t ) x^{D}(t)=x^{L}(t)-x^{R}(t) xD(t)=xL(t)−xR(t)
- 进一步来说,我们在频率域上进行操作,对信号做 x M ( t ) x^M(t) xM(t)STFT变换,目标是预测 x D ( t ) x^D(t) xD(t)。
-
X
M
=
{
X
t
,
f
M
}
t
=
1
,
f
=
1
T
,
F
,
X
D
=
{
X
t
,
f
D
}
t
=
1
,
f
=
1
T
,
F
\mathbf{X}^{M}=\left\{\mathbf{X}_{t, f}^{M}\right\}_{t=1, f=1}^{T, F}, \quad \mathbf{X}^{D}=\left\{\mathbf{X}_{t, f}^{D}\right\}_{t=1, f=1}^{T, F}
XM={Xt,fM}t=1,f=1T,F,XD={Xt,fD}t=1,f=1T,F
t是时间帧,f是频率槽序号。T和F是总数。
最后得到以下估计
x ~ L ( t ) = x M ( t ) + x ~ D ( t ) 2 , x ~ R ( t ) = x M ( t ) − x ~ D ( t ) 2 \tilde{x}^{L}(t)=\frac{x^{M}(t)+\tilde{x}^{D}(t)}{2}, \quad \tilde{x}^{R}(t)=\frac{x^{M}(t)-\tilde{x}^{D}(t)}{2} x~L(t)=2xM(t)+x~D(t),x~R(t)=2xM(t)−x~D(t)
3.3. Mono2Binaural Network
- 从音频片段的中心的视频帧提取视觉特征
- ResNet 4th block
- 1 × 1 1 \times 1 1×1 conv reshape, 仅仅改变滤波器维度。
- 将其展平为单个视觉特征向量
- 采用UNET 结构。
- spectrogram 经过五个conv block 每个block stride=2.
- 经过encoder 之后,变为(T/32)×(F/32)×C
- 视觉特征向量现在重复(T/32)×(F/32)次,变为和encoder 后的特征维数相同。
- 在经过对应的decoder获得 复数乘法频谱图掩模
- x ~ D = M ⋅ x M \tilde{\mathbf{x}}^{D}=\mathcal{M} \cdot \mathbf{x}^{M} x~D=M⋅xM
3.4. Audio-Visual Source Separation
- 两段音频
- 把两段音频的双声道合并在一起
- 对着双声道音频提取音频特征
- 给定视觉特征,网络可以把原始的双声道恢复回来