22. Asteroid: the PyTorch-based audio source separation toolkit for researchers

本文介绍了用于研究人员的基于pytorch的音频源分离工具包Asteroid。受到最成功的神经源分离系统的启发,它提供了建立这样一个系统所需的所有神经构建模块。为了提高再现性,还提供了常见音频源分离数据集的 Asteroid’s recipes。本文介绍了Asteroid的软件体系结构及其主要功能。通过展示实验结果获得的Asteroid’s recipes,可以看见我们的实验结果取得了比较好的效果。

        代码提供在github.com/mpariente/asteroid.

目录

1.介绍

2.框架

3. 数据集

4.pipeline

4.结论      

1.介绍

        声源分离旨在将混合信号分离成单个的声源信号,是在真实声学环境中实现鲁棒语音处理的关键。经典的开源工具包,如fast、HARK、ManyEars和openBliSSART,它们基于概率建模、非负矩阵分解、声源局部化和/或波束形成,在过去的十年中已经取得了成功。然而,它们现在在很大程度上被基于深度学习的方法超越,至少在单通道信源分离的任务上是这样。

        其他还有一些开源的包,用于声源的分离。比如有nussl,onssen,open-unmix。但是存在一系列的问题,比较明显的是,他们并不会全部提供数据集,或者没有提供完整的pipeline。

        Asteroid用户友好的,容易扩展,促进可复制的研究,并使易于实验。因此,它支持广泛的数据集和架构,并提供重现一些重要论文的配方。Asteroid是建立在以下原则:

        1.尽可能使用自然地pytorch代码

        2.允许较小的第三方改动

        3.按照需要可配置

2.框架

        Asteroid 不是单框架任务short-time Fourier trans- form (STFT)-like representation。遵循编码器-掩码-解码器的方法,并提供各种选择的filterbanks,masker networks, and loss functions。它还为几个数据集training and evaluation tools and recipes。

这里的masker网络,Asteroid主要使用的是TasNet's 的LSTM网络。以及DPRNN(多路径循环神经网络)。

3. 数据集

wsj0-2mix和wsj0-3mix、WHAM、WHAMR、LibriMix  FUSS、微软深层噪声抑制挑战数据集(DNS)、SMS-WSJ、Kinect- WSJ、MUSDB18。wsj0-2mix和MUSDB18分别是目前用于语音和音乐分离的参考数据集。WHAM、WHAMR、LibriMix、SMS-WSJ和Kinect-WSJ是最近发布的数据集,它们解决了wsj0-2mix的一些缺点。FUSS是第一个处理任意声音分离的开源数据集。注意,wsj0-2mix是WHAM的一个子集,WHAM是WHAMR的一个子集。

使用pb bss eval4执行评估,这是pb bss5的一个子工具包,专门为评估而编写。它原生支持用于源分离的大多数指标:SDR、信噪比(SIR)、信伪比(SAR)、SI-SDR、PESQ和短时目标可解性(STOI)。 

4.pipeline

 

4.结论      

        在本文中,我们介绍了一个新的开源音频源分离工具包Asteroid,它专为研究人员和实践者设计。对比实验表明,在不同的数据集和不同的体系结构下,使用Asteroid获得的结果是有竞争力的。该工具包被设计成可以快速扩展为新的网络架构或新的基准数据集。在不久的将来,预训练模型将可用,我们打算与ESPNet接口,以实现端到端多说话人语音识别。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值