语音分离 | SPMAMBA: STATE-SPACE MODEL IS ALL YOU NEED IN SPEECH SEPARATION

一、文章摘要

        在语音分离方面,基于CNN和Transformer的模型都展示了强大的分离能力,在研究界引起了极大的关注。然而,基于cnn的方法对长序列音频的建模能力有限,导致分离性能不理想。而基于Transformer的方法由于计算复杂度高,在实际应用中也受到限制。值得注意的是,在计算机视觉中,基于Mamba的方法以其强大的性能和减少的计算需求而闻名。本文,提出了一种使用状态空间模型的语音分离网络架构,称之为SPMamba。

二、本文方法

2.1 TF-GridNet

        本文在TF-GridNet[1] 基础上把BLSTM替换为一个双向曼巴模块,旨在捕获更广泛的上下文信息。

TF-GridNet 模型-1

TF-GridNet 模型-2

2.2 SPMamba

SPMamba模型-1

         与TF-GridNet一样,SPMamba由三个主要部分组成:1)学习不同帧之间特征关系的时域模块;2)用于建模不同子带之间关系的频域模块;3)用于捕获远程全局信息的时频注意模块。

SPMamba模型-2

        Mamba方法中描述的结构化ssm通过高维潜在状态h将输入x的每个通道映射到输出y来运行,如下式所示:

        其中,\hat{A},\hat{B},\hat{C},\hat{D}是为语音分离任务量身定制的离散状态矩阵。离散化过程将连续参数(∆,A, B)转换为离散参数(\hat{A},\hat{B}),使模型能够在离散时间音频信号上运行。Mamba方法能够根据内容动态调整其对输入序列特定部分的关注,这一特性对于语音信号中不同段落发生改变的语音分离任务特别有益。选择机制是通过使输入的几个参数(∆,B, C)函数来实现的,从而在模型中引入了时变动态。

2.3 损失函数

三、实验结果

        实验结果证明了SPMamba的优越性能,与基准TF-GridNet模型相比,SI-SNRi大幅提高了2.42 dB。此外,SPMamba以更少的参数和更低的计算复杂度实现了这种最先进的性能,突出了其在语音分离任务中的效率和有效性。

文章链接 https://arxiv.org/pdf/2404.02063v1.pdf

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目前,有一些先进的深度学习语音分离网络模型已经取得了显著的成果。以下是一些比较先进的深度学习语音分离网络模型: 1. Deep Clustering (DC):Deep Clustering是一种经典的深度学习语音分离模型。它使用了编码器-解码器结构和频谱聚类的思想,通过将频谱特征映射到一个低维空间,并使用K-means算法进行聚类来实现源信号的分离。 2. TasNet:TasNet(Time-domain Audio Separation Network)是一种基于时间域的语音分离模型。它使用一维卷积神经网络(Conv1D)来直接在时域上对音频信号进行处理,通过学习时间上的滤波器来实现源信号的分离。 3. Chimera++:Chimera++是一种基于深度学习语音分离模型,它结合了U-Net和TasNet的思想。Chimera++使用了编码器-解码器结构,并在解码器中使用了一维卷积神经网络,以在时域上进行源信号的分离。 4. Wave-U-Net++:Wave-U-Net++是对Wave-U-Net模型的改进,它在Wave-U-Net的基础上引入了时间延迟卷积(Time-Delayed Convolution),以增加模型在时域上的分离能力。 5. Demucs:Demucs(Deep Extractor, MUlti-scale Convolutional network for Separation)是一种基于深度学习语音分离模型,它使用了多尺度卷积神经网络,通过学习不同尺度上的特征来实现源信号的分离。 这些模型都在语音分离任务中取得了很好的效果,并且不断有新的模型被提出。选择适合的模型应该根据具体的需求和数据特点进行评估和比较。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值