注:这篇博客的内容来自论文SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS。
http://blog.csdn.net/linmingan/article/details/50957525
单通道音乐人声分离的目的是,从一首单通道歌曲中分离出人声和伴奏声。可以用表示,其中m表示混合歌曲,s1和s2分别表示人声和伴奏声。单通道音乐人声分离的方法很多,比如非负矩阵分解、低秩稀疏矩阵分解以及基于基音周期检查的一些方法,但是这些方法的分离效果会比较差。利用DRNN来分离的话能够取得很好的分离结果。因此这篇博文主要介绍一下如何利用DRNN进行单通道音乐人声分离。
数据集:MIR_1K,这个数据集由1000个歌曲片段构成,人声和伴奏声分别存放在不同的通道,16Khz的采样率,wav格式。利用DNN/DRNN(Deep Neural Network/Deep Recurrent Neural Network)进行单通道音乐人声分离的流程图如下:
简要介绍一下该流程图。给定一首混合歌曲Mixture Signal,通过短时傅里叶变换得到混合歌曲的振幅谱和相位谱。混合歌曲的振幅谱通过分离模型(虚线框的内容&