一、文章摘要
在语音分离方面,基于CNN和Transformer的模型都展示了强大的分离能力,在研究界引起了极大的关注。然而,基于cnn的方法对长序列音频的建模能力有限,导致分离性能不理想。而基于Transformer的方法由于计算复杂度高,在实际应用中也受到限制。值得注意的是,在计算机视觉中,基于Mamba的方法以其强大的性能和减少的计算需求而闻名。本文,提出了一种使用状态空间模型的语音分离网络架构,称之为SPMamba。
二、本文方法
2.1 TF-GridNet
本文在TF-GridNet[1] 基础上把BLSTM替换为一个双向曼巴模块,旨在捕获更广泛的上下文信息。
TF-GridNet 模型-1
TF-Gr