一、文章摘要
在语音分离方面,基于CNN和Transformer的模型都展示了强大的分离能力,在研究界引起了极大的关注。然而,基于cnn的方法对长序列音频的建模能力有限,导致分离性能不理想。而基于Transformer的方法由于计算复杂度高,在实际应用中也受到限制。值得注意的是,在计算机视觉中,基于Mamba的方法以其强大的性能和减少的计算需求而闻名。本文,提出了一种使用状态空间模型的语音分离网络架构,称之为SPMamba。
二、本文方法
2.1 TF-GridNet
本文在TF-GridNet[1] 基础上把BLSTM替换为一个双向曼巴模块,旨在捕获更广泛的上下文信息。
TF-GridNet 模型-1
TF-GridNet 模型-2
2.2 SPMamba
SPMamba模型-1
与TF-GridNet一样,SPMamba由三个主要部分组成:1)学习不同帧之间特征关系的时域模块;2)用于建模不同子带之间关系的频域模块;3)用于捕获远程全局信息的时频注意模块。
SPMamba模型-2
Mamba方法中描述的结构化ssm通过高维潜在状态h将输入x的每个通道映射到输出y来运行,如下式所示:
其中,是为语音分离任务量身定制的离散状态矩阵。离散化过程将连续参数(∆,A, B)转换为离散参数(),使模型能够在离散时间音频信号上运行。Mamba方法能够根据内容动态调整其对输入序列特定部分的关注,这一特性对于语音信号中不同段落发生改变的语音分离任务特别有益。选择机制是通过使输入的几个参数(∆,B, C)函数来实现的,从而在模型中引入了时变动态。
2.3 损失函数
三、实验结果
实验结果证明了SPMamba的优越性能,与基准TF-GridNet模型相比,SI-SNRi大幅提高了2.42 dB。此外,SPMamba以更少的参数和更低的计算复杂度实现了这种最先进的性能,突出了其在语音分离任务中的效率和有效性。