DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

最新推荐文章于 2024-04-27 09:31:35 发布

Aidanmomo

最新推荐文章于 2024-04-27 09:31:35 发布

阅读量3k

点赞数

分类专栏：语音分离文章标签：深度学习神经网络语音分离语音增强

本文链接：https://blog.csdn.net/aidanmo/article/details/123949566

版权

语音分离专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DPRNN是一种针对长语音序列的双路径递归神经网络模型，解决了传统RNN处理效率低下的问题。模型通过分段、块处理和重叠相加三个阶段对音频数据进行处理。块处理中，DPRNN包含块内和块间双向RNN操作，结合层归一化和残差连接。实验部分展示了模型在语音分离任务上的应用，使用了6个DPRNN层和BiLSTM，以4秒语音片段为输入进行训练。

摘要由CSDN通过智能技术生成

1. 简介

DPRNN提出的依据：因此如果出现超长的语音序列，使用传统的RNN模型将无法高效的处理。而一维卷积的感受野小于音频序列长度，因此无法进行utterance-level的语音分离。

DPRNN 是一种双路径递归神经网络，在深度模型上优化RNN，使其可以对极长的语音序列进行建模。其将较长的音频片段分成较小的块（chunk），迭代应用块内和块间操作。

当前时域的语音分离方法主要分为两个部分：自适应前端和直接回归

自适应前端方法：构建可学习的前端（Encoder）来代替STFT，生成类似时频图的特征作为分离模块的输入进行分离。这个方法的好处是可以在窗口大小和前端基频数量方面有更多灵活的选择。代表模型为Conv-TasNet。
直接回归方法：通过一维卷积神经网络(1-D CNN)来学习混合语音到干净语音的映射关系，而无需明确的短时傅里叶变换。

2. 模型架构

在这里插入图片描述
模型包含三个阶段：分段，块处理和重叠相加。

2.1 分段

该阶段将长序列输入数据分割成重叠的小块(chunk)，并连接成3-D张量。

输入序列数据表示为 $\in R^{N \times L}$ ，其中N表示特征维度（取决于Encoder部分的维度），L表示序列长度（时间步的长度）。将W分割成长度为K，块移(hop size)为P的块（chunk）。使用零扩展(zero-padding)处理第一个块和最后一个块。最终得到S个块，每块数据用 $D_s \in R^{N \times K}$ 表示，所有块组成3-D张量 $\in R^{N \times K \times S}$ 。

2.2 块处理

分块后的数据T输入到B个DPRNN块中进行处理。用b表示第b个DPRNN处理块， $T_b$ 表示第b个处理块的输入数据。每个处理块包含块内处理和块间处理两个部分。块内处理是双向的，应用于输入数据的第二个维度，即在S个块的每个块内。
在这里插入图片描述
其中 $U_b \in R^{H \times K \times S}$ 表示RNN的输出， $T_b[:,:,i] \in R^{N \times K}$ 表示块i定义的序列。利用线性全连接层将 $U_b$ 转换回 $T_b$ 。

之后使用层归一化：

然后在LN层输出与块输入之间应用残差连接：
在这里插入图片描述
之后， $\hat{T}_b$ 作为块间RNN子模块的输入，块间RNN应用于输入数据的第三个维度：

块间处理中同样使用线性全连接、层归一化和残差连接。

2.3 重叠相加

将DPRNN处理的数据重叠相加，变换回原来的序列 $\in R^{N \times L}$ 。

3. 实验部分

采用Conv-TasNet相同的设置，encoder和decoder部分使用64个滤波器，separator部分使用6个DPRNN层，用BiLSTM实现，包含128个隐藏单元。

4秒长度的语音片段，训练100个周期，初始学习率1e-3，每两个周期衰减0.98，10个周期的early stop。Adam被用作优化器。所有实验均使用最大L2范数为5的梯度削波。

在这里插入图片描述

Aidanmomo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

文章目录1. 简介2. 模型架构2.1 分段2.2 块处理2.3 重叠相加3. 实验部分1. 简介DPRNN提出的依据：因此如果出现超长的语音序列，使用传统的RNN模型将无法高效的处理。而一维卷积的感受野小于音频序列长度，因此无法进行utterance-level的语音分离。DPRNN 是一种双路径递归神经网络，在深度模型上优化RNN，使其可以对极长的语音序列进行建模。其将较长的音频片段分成较小的块（chunk），迭代应用块内和块间操作。当前时域的语音分离方法主要分为两个部分：自适应前端和直接回归
复制链接

扫一扫