语音分离 | SPMAMBA: STATE-SPACE MODEL IS ALL YOU NEED IN SPEECH SEPARATION

本文提出SPMamba,一种结合了BLSTM与Mamba模块的语音分离网络,利用状态空间模型改善了长序列处理和计算效率。实验结果显示,SPMamba在保持先进性能的同时,参数少、计算复杂度低,显著优于TF-GridNet模型。
摘要由CSDN通过智能技术生成

一、文章摘要

        在语音分离方面,基于CNN和Transformer的模型都展示了强大的分离能力,在研究界引起了极大的关注。然而,基于cnn的方法对长序列音频的建模能力有限,导致分离性能不理想。而基于Transformer的方法由于计算复杂度高,在实际应用中也受到限制。值得注意的是,在计算机视觉中,基于Mamba的方法以其强大的性能和减少的计算需求而闻名。本文,提出了一种使用状态空间模型的语音分离网络架构,称之为SPMamba。

二、本文方法

2.1 TF-GridNet

        本文在TF-GridNet[1] 基础上把BLSTM替换为一个双向曼巴模块,旨在捕获更广泛的上下文信息。

TF-GridNet 模型-1

TF-GridNet 模型-2

2.2 SPMamba

SPMamba模型-1

         与TF-GridNet一样,SPMamba由三个主要部分组成:1)学习不同帧之间特征关系的时域模块;2)用于建模不同子带之间关系的频域模块;3)用于捕获远程全局信息的时频注意模块。

SPMamba模型-2

        Mamba方法中描述的结构化ssm通过高维潜在状态h将输入x的每个通道映射到输出y来运行,如下式所示:

        其中,\hat{A},\hat{B},\hat{C},\hat{D}是为语音分离任务量身定制的离散状态矩阵。离散化过程将连续参数(∆,A, B)转换为离散参数(\hat{A},\hat{B}),使模型能够在离散时间音频信号上运行。Mamba方法能够根据内容动态调整其对输入序列特定部分的关注,这一特性对于语音信号中不同段落发生改变的语音分离任务特别有益。选择机制是通过使输入的几个参数(∆,B, C)函数来实现的,从而在模型中引入了时变动态。

2.3 损失函数

三、实验结果

        实验结果证明了SPMamba的优越性能,与基准TF-GridNet模型相比,SI-SNRi大幅提高了2.42 dB。此外,SPMamba以更少的参数和更低的计算复杂度实现了这种最先进的性能,突出了其在语音分离任务中的效率和有效性。

文章链接 https://arxiv.org/pdf/2404.02063v1.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值