[语音分离论文小记] Attention is all you need in speech separation

努力work，早发paper

已于 2022-10-06 09:52:32 修改

阅读量2.4k

点赞数 1

分类专栏：【语音分离论文小记】文章标签：深度学习语音识别 ieee论文机器学习信号处理

于 2022-01-05 16:31:40 首次发布

本文链接：https://blog.csdn.net/weixin_43414694/article/details/122326534

版权

【语音分离论文小记】专栏收录该内容

5 篇文章 9 订阅

订阅专栏

作者：Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong
发表于 ICASSP2021

源码论文地址

值得一读的论文
Y. Luo, Z. Chen, and T. Yoshioka, “Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation,” in Proc. of ICASSP, 2020, pp. 46–50.（介绍了DPRNN方法）

SepFormer(无RNN,纯transformer)、低内存、高速、多尺度、时域掩蔽

方法：提出了SepFormer是一个仅由transformer组成的掩蔽网络，通过transformer的多尺度学习方法学习短期和长期依赖关系，使用DPRNN的双尺度框架，将DPRNN中的RNN替换为变压器组成的多尺度管道
DPRNN证明更好的长期建模对于提高分离性能至关重要
目前的语音分离系统在很大程度上依赖于 [Conv-TasNet](###15-(ITASL 2019) Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation (Yi Luo; Nima Mesgarani)) 推广的学习域掩蔽策略
模型结构
- 模型是基于学习的域掩蔽方法，有编码器、解码器和掩蔽网络组成
- 编码器：时域混合语音作为输入，它是一个一维卷积，卷积的步长对模型的性能、速度和内存有显著影响
- 掩蔽网络：编码器的输出作为输入，经过层归一化和线性层后分块，之后进入SepFormer学习短期和长期依赖关系，之后进入激活函数和线性层
- SepFormer：使用了类似DPRNN中的双尺度方法对短期和长期依赖性进行建模。对短期相关性进行建模的变压器块称为intranformer（IntraT），而对长期相关性进行建模的变压器块称为InterTransformer（InterT）
- 解码器：使用转置卷积，具有与编码器相同的步长和核大小。输入是混合声音的掩蔽和编码器输出的元素乘积
数据集：WSJ0-2mix/3mix
评价指标：SI-SNR：22.3/19.5；SDRi：22.4/19.7

努力work，早发paper

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
[语音分离论文小记] Attention is all you need in speech separation

作者：Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong发表于 ICASSP2021源码论文地址值得一读的论文Y. Luo, Z. Chen, and T. Yoshioka, “Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation,” in Proc. o
复制链接

扫一扫

专栏目录