本文介绍了用于研究人员的基于pytorch的音频源分离工具包Asteroid。受到最成功的神经源分离系统的启发,它提供了建立这样一个系统所需的所有神经构建模块。为了提高再现性,还提供了常见音频源分离数据集的 Asteroid’s recipes。本文介绍了Asteroid的软件体系结构及其主要功能。通过展示实验结果获得的Asteroid’s recipes,可以看见我们的实验结果取得了比较好的效果。
代码提供在github.com/mpariente/asteroid.
目录
1.介绍
声源分离旨在将混合信号分离成单个的声源信号,是在真实声学环境中实现鲁棒语音处理的关键。经典的开源工具包,如fast、HARK、ManyEars和openBliSSART,它们基于概率建模、非负矩阵分解、声源局部化和/或波束形成,在过去的十年中已经取得了成功。然而,它们现在在很大程度上被基于深度学习的方法超越,至少在单通道信源分离的任务上是这样。
其他还有一些开源的包,用于声源的分离。比如有nussl,onssen,open-unmix。但是存在一系列的问题,比较明显的是,他们并不会全部提供数据集,或者没有提供完整的pipeline。
Asteroid用户友好的,容易扩展,促进可复制的研究,并使易于实验。因此,它支持广泛的数据集和架构,并提供重现一些重要论文的配方。Asteroid是建立在以下原则:
1.尽可能使用自然地pytorch代码
2.允许较小的第三方改动
3.按照需要可配置
2.框架
Asteroid 不是单框架任务short-time Fourier trans- form (STFT)-like representation。遵循编码器-掩码-解码器的方法,并提供各种选择的filterbanks,masker networks, and loss functions。它还为几个数据集training and evaluation tools and recipes。
这里的masker网络,Asteroid主要使用的是TasNet's 的LSTM网络。以及DPRNN(多路径循环神经网络)。
3. 数据集
wsj0-2mix和wsj0-3mix、WHAM、WHAMR、LibriMix FUSS、微软深层噪声抑制挑战数据集(DNS)、SMS-WSJ、Kinect- WSJ、MUSDB18。wsj0-2mix和MUSDB18分别是目前用于语音和音乐分离的参考数据集。WHAM、WHAMR、LibriMix、SMS-WSJ和Kinect-WSJ是最近发布的数据集,它们解决了wsj0-2mix的一些缺点。FUSS是第一个处理任意声音分离的开源数据集。注意,wsj0-2mix是WHAM的一个子集,WHAM是WHAMR的一个子集。
使用pb bss eval4执行评估,这是pb bss5的一个子工具包,专门为评估而编写。它原生支持用于源分离的大多数指标:SDR、信噪比(SIR)、信伪比(SAR)、SI-SDR、PESQ和短时目标可解性(STOI)。
4.pipeline
4.结论
在本文中,我们介绍了一个新的开源音频源分离工具包Asteroid,它专为研究人员和实践者设计。对比实验表明,在不同的数据集和不同的体系结构下,使用Asteroid获得的结果是有竞争力的。该工具包被设计成可以快速扩展为新的网络架构或新的基准数据集。在不久的将来,预训练模型将可用,我们打算与ESPNet接口,以实现端到端多说话人语音识别。