【论文笔记】【CVPR2019】2.5D Visual Sound

Abstract

双耳音频可以使得听众能更好地感受音乐的情境。然而,获取双耳音频需要非凡的专业知识,以及设备。

  • 利用视频,来把单声道音频转换为双声道
  • 视觉有着重要的空间信息,音频和其有关联
  • 这篇文章从未标注的视频中恢复这一联系
  • 2.5D visual sound
  • 我们网络学到的自我监督表示有利于视听源分离

I.Introduction

II.Related Work

从视频生成音频

  • 循环网络[53]或条件生成对抗网络[7]可以为输入视频帧生成音频,而强大的模拟器可以为3D形状合成视听数据[51]。
  • 基于视频的音频空间化

音频视频源分离

音频视频源分离介绍

  • 盲分,只有一个通道,这是十分困难的
  • 分离会变得容易,如果有多通道多个收音设备
  • 传统分离:互信息[11],子空间分析[41,35],矩阵分解[34,39,13]和相关的起始[6,25]
  • 最近使用深度学习

使用自监督学习

III.Approach

3.1 Dataset

Fair-Play

3.2 Mono2Binaural Formulation

  • The interaural time difference (ITD)
  • The interaural level difference (ILD)
  • 左耳信号 x L ( t ) x^L(t) xL(t),右耳信号 x R ( t ) x^R(t) xR(t),单声道信号 x M ( t ) = x L ( t ) + x R ( t ) x^M(t)=x^{L} (t)+x^R(t) xM(t)=xL(t)+xR(t)。失去了空间信息。如果想找到一个算法,来从单声道信号恢复到左耳和右耳信号,是十分困难的。因为单声道信号,缺少恢复的必要信息。这个必要信息可以从视频中获取。
  • 我们不是直接预测两个通道,而是预测两个通道的差异
  • x D ( t ) = x L ( t ) − x R ( t ) x^{D}(t)=x^{L}(t)-x^{R}(t) xD(t)=xL(t)xR(t)
  • 进一步来说,我们在频率域上进行操作,对信号做 x M ( t ) x^M(t) xM(t)STFT变换,目标是预测 x D ( t ) x^D(t) xD(t)
  • X M = { X t , f M } t = 1 , f = 1 T , F , X D = { X t , f D } t = 1 , f = 1 T , F \mathbf{X}^{M}=\left\{\mathbf{X}_{t, f}^{M}\right\}_{t=1, f=1}^{T, F}, \quad \mathbf{X}^{D}=\left\{\mathbf{X}_{t, f}^{D}\right\}_{t=1, f=1}^{T, F} XM={Xt,fM}t=1,f=1T,F,XD={Xt,fD}t=1,f=1T,F
    t是时间帧,f是频率槽序号。T和F是总数。
    最后得到以下估计
    x ~ L ( t ) = x M ( t ) + x ~ D ( t ) 2 , x ~ R ( t ) = x M ( t ) − x ~ D ( t ) 2 \tilde{x}^{L}(t)=\frac{x^{M}(t)+\tilde{x}^{D}(t)}{2}, \quad \tilde{x}^{R}(t)=\frac{x^{M}(t)-\tilde{x}^{D}(t)}{2} x~L(t)=2xM(t)+x~D(t),x~R(t)=2xM(t)x~D(t)

3.3. Mono2Binaural Network

在这里插入图片描述

  1. 从音频片段的中心的视频帧提取视觉特征
  • ResNet 4th block
  • 1 × 1 1 \times 1 1×1 conv reshape, 仅仅改变滤波器维度。
  • 将其展平为单个视觉特征向量
  1. 采用UNET 结构。
  • spectrogram 经过五个conv block 每个block stride=2.
  • 经过encoder 之后,变为(T/32)×(F/32)×C
  • 视觉特征向量现在重复(T/32)×(F/32)次,变为和encoder 后的特征维数相同。
  • 在经过对应的decoder获得 复数乘法频谱图掩模
  1. x ~ D = M ⋅ x M \tilde{\mathbf{x}}^{D}=\mathcal{M} \cdot \mathbf{x}^{M} x~D=MxM

3.4. Audio-Visual Source Separation

在这里插入图片描述

  • 两段音频
  • 把两段音频的双声道合并在一起
  • 对着双声道音频提取音频特征
  • 给定视觉特征,网络可以把原始的双声道恢复回来
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值