感想
单词理解
Monaural 单耳(听觉)的,非立体声的;
Concatenate vt 把 (一系列事件、事情等)联系起来;
介绍
本文侧重单声道的音乐人声分离,最近,一些方法利用了音乐和语音的低秩(low rank,说实话我也不明白这到底是啥意思)和稀疏性的假设。但是这些假设有时候不是合理的,例如,鼓声可能位于稀疏子空间。另外,所有的这些模型都可以被看做是在谱域(spectral domain)的线性变换。
最近深度学习的发展,在不加任何假设的情况下,我们可以使用多非线性层拓展模型的表达能力,并且可以学习和优化数据的隐士表达。这篇文章用了深度循环神经网络(DRNN)分离单轨的音频,我们探索用不同的DRNN框架联合优化这个网络和一个软掩蔽函数(soft masking function)。我们提出的框架如下图。
注意:对一个时域信号进行傅里叶变换,就可以得到的信号的频谱,信号的频谱由两部分构成:幅度谱和相位谱。
作者使用反向传播算法来对目标函数进行优化,使用limited-memory Broyden-Fletcher-
Goldfarb-Shanno (L-BFGS) (本人不懂这个算法,等学了再补上)算法来训练模型。Epoch设置的是400,,根据development set来选择最佳的模型。
这是soft time-frequency mask mt(f)的定义,f代表频率。计算mt后,我们把mt运用到下面的公式,zt(f)为幅度谱,这样可以求得估计的幅度谱s^1t(f),s^2(f). time-frequency masking function可以看作是DNN的一层,我们联合优化这个函数和网络。
然后我们另加一层输出,就得到了分离的谱y~1t,y~2t,计算公式为
原来的相谱和计算的频谱经过ISTFT,得到时域信号。
训练的目标函数
当Ai的概率和=Bi的概率和=1的时候,D(‘|’)减少到KLdivergence. A,B可以被看做概率分布。
实验结果
为了量化声源分离的结果,我们使用信号干扰比(Source toInterference Ratio ,SIR),系统误差比(Sourceto Artifacts Ratio ,SAR),信号偏差比(Source to DistortionRatio ,SDR)去评价。规范化的SDR定义如下:
V^是再合成的人声,V是原来干净的人声,X是混合的声音。NSDR是为了评估预先处理的混声X和分离的人声V^的SDR的效果。我们用Global NSDR (GNSDR),Global SIR (GSIR),Global SAR (GSAR)去评估整体的性能表现。它们分别是加权的GNSDR,SIR,SAR的均值。所有测试片段根据它们的长度加权重。SDR,SAR,SIR的值越高,代表分离的质量越好。干扰源的抑制用SIR来很亮,系统误差
注意:SIR,SDR,SAR的定义如下:
很多情况下都可以忽略噪声对计算的影响,所以enoise(t)那部分可以去掉。由此只剩下三部分,由此得到上述三个性能参数。
参考文献
[1]. Circular shift. https://en.wikipedia.org/wiki/Circular_shift
[2]. Po-Sen Huang, Minje Kim, MarkHasegawa-Johnson, Paris Smaragdis:
Singing-Voice Separation from MonauralRecordings using Deep Recurrent Neural Networks. ISMIR 2014: 477-482
[3] 基于深度循环神经网络(DRNN)的单通道音乐人声分离