[语音分离论文小记] Attention is all you need in speech separation

作者:Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong
发表于 ICASSP2021


源码 论文地址

值得一读的论文
Y. Luo, Z. Chen, and T. Yoshioka, “Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation,” in Proc. of ICASSP, 2020, pp. 46–50.(介绍了DPRNN方法)

SepFormer(无RNN,纯transformer)、低内存、高速、多尺度、时域掩蔽


  1. 方法:提出了SepFormer是一个仅由transformer组成的掩蔽网络,通过transformer的多尺度学习方法学习短期和长期依赖关系,使用DPRNN的双尺度框架,将DPRNN中的RNN替换为变压器组成的多尺度管道

  2. DPRNN证明更好的长期建模对于提高分离性能至关重要

  3. 目前的语音分离系统在很大程度上依赖于 [Conv-TasNet](###15-(ITASL 2019) Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation (Yi Luo; Nima Mesgarani)) 推广的学习域掩蔽策略

  4. 模型结构

    • 模型是基于学习的域掩蔽方法,有编码器、解码器和掩蔽网络组成

    • 编码器:时域混合语音作为输入,它是一个一维卷积,卷积的步长对模型的性能、速度和内存有显著影响

    • 掩蔽网络:编码器的输出作为输入,经过层归一化和线性层后分块,之后进入SepFormer学习短期和长期依赖关系,之后进入激活函数和线性层

    • SepFormer:使用了类似DPRNN中的双尺度方法对短期和长期依赖性进行建模。对短期相关性进行建模的变压器块称为intranformer(IntraT),而对长期相关性进行建模的变压器块称为InterTransformer(InterT)

    • 解码器:使用转置卷积,具有与编码器相同的步长和核大小。输入是混合声音的掩蔽和编码器输出的元素乘积

  5. 数据集:WSJ0-2mix/3mix

  6. 评价指标:SI-SNR:22.3/19.5;SDRi:22.4/19.7

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值