DPRNN网络结构

本文介绍了DPRNN网络在语音分离任务中的应用,该网络通过编码、分离和解码三个阶段实现高效处理。在wsj0-2mix数据集上,DPRNN能提升SI-SNR指标达18.8dB。网络处理两个32000长度的音频片段,并利用LSTM进行特征提取。文章还提及了排序、注意力机制、全排列等概念,并讨论了损失函数和梯度裁剪策略。此外,还涉及到了数据存储和索引操作的示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下为DPRNN的网络结构,随手画的,错了请提醒。
网络分为编码、分离、解码
该网络能够在语音分离中的数据集wsj0-2mix 达到SI-SNR提升18.8db的效果。
该网络数据读取时为两个32000长度的音频片段,一个为音频开头,一个为音频结尾;在训练时随机选一个放入网络
在这里插入图片描述

  1. sorted( infos, key=lambda info: int(info[1]), reverse=True)进行排序,reverse代表降序,key代表是按info[1]的维度.
  2. break 是中断该次小循环的这一次循环,如果该小循环由其他包含它的循环重启,则小循环继续。
    • xs[0],在形状中指xs的维度,如xs.size()=[16,64,2,32000],则* xs[0]代表[,64,2,32000]的形状,x[0].new(1,1,* xs[0])则为[1,1,16,64,2,32000]而与x无关,应该和x的类型有关。
  3. LSTM双向则输入层加倍,因为双向LSTM的输出也为双倍
  4. getattr获得属性值
  5. bf_filter = self.output(output) * self.output_gate(output)这种滤波器不太懂,我觉得像一个全权重的注意力机制.
  6. permutations(range(C)返回可迭代对象的所有数学全排列
  7. 该网络使用-SI-SNR作为损失函数
  8. json.dump(file_infos, f, indent=4)将python中的对象转化成json储存到文件中,indent写入的文本的缩进
  9. torch.nn.utils.clip_grad_norm_(self.model.parameters(), self.max_norm)对于存在梯度爆炸的情况, 在优化器函数之前执行这个函数,可以重新整合一遍梯度梯度缩小到指定范围
  10. result.index_add_(-2, frame, subframe_signal)按第-2维度,将result和subframe_signal相加,即先按dim和 frame将subframe_signal重新排列,frame有重复的维度则subframe_signal对该维度数据也重复相加,最后与result相加。如下代码,x[:,1]=t[:,0]+t[:,4]
x = torch.tensor([[1, 2, 32000, 1],[1,2,5,8]])
t = torch.tensor([[1, 1, 5, 8,2], [1,1,2,5,1]])
index = torch.tensor([1, 0,2,3,1])
x.index_add_(1, index, t)
print(x.size())
print(x)
torch.Size([2, 4])
tensor([[    2,     5, 32005,     9],
        [    2,     4,     7,    13]])
以下是我的论文创新点,请帮我润色并整理:在双向长短时记忆及加性注意力语音分离算法中,创新点如下: 1)为简化模型结构并解决模型过拟合问题,将FC层替换为本文设计出的FFN模型并引入Dropout模块。 2)在BLAA模型中,块内部分使用Bi-LSTM结合前向和后向的信息流,提高该模型对序列数据的理解和预测能力。块间计算引入加性注意力机制,加性注意力利用元素乘法替代传统的矩阵乘法,提升了模型的计算效率,降低计算复杂度。 在WHAM!、WSJ0-2mix数据集上的实验结果表明,与基线模型DPRNN相比,所提出的BLAA模型在更少的模型参数量下,在噪声环境中实现了更优的分离性能。 在适宜注意力局部循环语音分离算法中,创新点如下: 1)本文设计了一个创新的分离模型,命名为SALR。该模型通过局部和全局交替序列建模来解耦混合信号,帮助语音信号提取。并针对加性注意力在权重计算方面的不足,设计出适宜注意力模块,使其在噪声环境下表现出更好的分离性能,解决了传统方法在复杂噪声环境中的不足。 在WHAM!、WSJ0-2mix数据集上的实验结果表明,所提出的SALR模型在降低了模型参数量的情况下,在噪声环境中实现了更优的分离性能,提升建模能力并有效减小模型尺寸。最后通过语谱图,验证了模型分离后的效果。
最新发布
03-25
### 回答1: import torch from torch import nnclass DPRNN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, num_layers=2): super(DPRNN, self).__init__() self.num_layers = num_layers self.input_dim = input_dim self.hidden_dim = hidden_dim self.output_dim = output_dim #RNN and Linear modules self.rnns = nn.ModuleList() self.linear = nn.ModuleList() for i in range(num_layers): self.rnns.append(nn.GRU(input_dim, hidden_dim, batch_first=True)) self.linear.append(nn.Linear(hidden_dim, output_dim)) def forward(self, x): #RNN forward pass out = x for i in range(self.num_layers): out, _ = self.rnns[i](out) out = self.linear[i](out) return out ### 回答2: DPRNN(Dual-Path Recurrent Neural Network)是一种用于语音增强的神经网络模型。它通过将原始语音信号分离为清晰语音和噪声成分,提高语音信号的质量。下面是一个使用Python实现的简单的DPRNN网络代码示例: ```python import torch import torch.nn as nn import torch.nn.functional as F class DPRNN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, num_layers): super(DPRNN, self).__init__() self.hidden_dim = hidden_dim self.num_layers = num_layers self.rnn = nn.LSTM(input_dim, hidden_dim, num_layers, batch_first=True, bidirectional=True) self.fc = nn.Linear(hidden_dim * 2, output_dim) def forward(self, input): B, T, F = input.size() # B: batch_size, T: sequence_len, F: feature_dim input = input.permute(0, 2, 1) # (B, F, T) for LSTM # DPRNN output, _ = self.rnn(input) # (B, F, 2H) output = output.view(B, F, 2, self.hidden_dim) # (B, F, 2, H) output = torch.sum(output, dim=2) # (B, F, H) # Feature-wise gated output gated_output = torch.sigmoid(self.fc(output)) # (B, F, O) # Masking and Enhancement output = input * gated_output.unsqueeze(3) # (B, F, T, O) output = output.permute(0, 2, 1, 3) # (B, T, F, O) return output ``` 在这个DPRNN网络中,我们首先使用一个双向LSTM层对输入语音信号进行编码。然后,通过一个全连接层将LSTM输出映射到所需的输出维度。接下来,我们使用一个sigmoid函数将特征维度进行门控,以产生特征权重。最后,我们将这些权重应用于输入信号,将不需要的噪声成分移除,以增强语音信号。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值