The Sound of Pixels

简介

提出了一种声音分离网络,对视觉特征应用了空间最大池化,与声音特征进行点乘融合,以二值或软掩膜作为监督信号。每个音频有对应的视觉响应。收集了MUSIC数据集。

所提方法

在这里插入图片描述

网络结构

视频分析网络:使用ResNet-18作为骨干,提取T×(H/16)×(W/16)×K,使用了时间池化。
音频分析网络:对数声谱图,用U-Net作为骨干。==为何用对数声谱图?==对于诸如乐器等的谐波具有平移不变性(其基频和高阶谐波随着音高的变化在对数频率尺度上平移)
合成网络:帧特征和声音特征同时输入,为视觉特征乘以一个可学习的尺度因子(与通道数量相等),然后与声音特征进行点乘,最后加上一个偏置。

损失函数

L1 loss

实施

数据集:混合的声音为单独的声音进行线性相加。掩膜可以是二值的格式,也可以是比例的格式。
若为二值格式,则目标声音掩膜上每个位置的值,是由该声音是否占据混合声音的主要成分来确定的
M n ( u , v ) = ⟦ S n ( u , v ) ≥ S m ( u , v ) ⟧ , ∀ m = ( 1 , . . . , N ) M_n(u,v)=\llbracket S_n(u,v)\geq S_m(u,v)\rrbracket, \forall m=(1,...,N) Mn(u,v)=[[Sn(u,v)Sm(u,v)]],m=(1,...,N),此时的损失函数为sigmoid cross entropy loss。
若为比例格式,则为 M n ( u , v ) = S n ( u , v ) S m i x ( u , v ) M_n(u,v)=\frac{S_n(u,v)}{S_{mix}(u,v)} Mn(u,v)=Smix(u,v)Sn(u,v),使用L1损失
音频采样率降到11kHz,在训练时随机为每个音频采集6秒,STFT的窗口尺寸为1022,步幅256,得到512×256的对数声谱图

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值