语音分离---TasNet

语音分离:

1)分离噪声: 降噪
2)分离混响:降混响
3)分离人声:说话人分离
4)分离回声:回声消除

TasNet 系列在语音分离方法有不错的表现,有用到降噪&说话人分离&回声消除等方面,采用的是 encoder + seperator(generate mask) + decoder 的结构;主要提出的点有:
1) time-domain (对比时频域算法,用encoder 和 decoder 来替代stft 和 istft 类似的变换。可以不需要考虑是否保留phase和频域分辨率等考虑);
2) end-to-end的模式且可以实现casual的inference;

但是按照论文的结果和自己的实验的一些结果来说,不一定能代表时域的方法就比频域的方法要好(不同的参数的选择,不同的模型结构);

TasNet

file 中间的seperator 使用LSTM结构来捕捉time sequence 的信息;

Conv-TasNet

中间的seperator 使用TCN 的结构来捕捉time sequence 的信息,LSTM的几个问题:
1)长序列LSTM收敛困难问题;
2) LSTM 参数量大,不能并行计算;
3)长依赖的不定性;
file 这里面改成TCN之后,还采用了residual的结构,seperable conv, global layer norm 等来提升效果

Multi-Stream Conv-TasNet

mulit-stream conv-tasnet 是tasnet 在aec 回声消除方面的改进:
file 主要的区别是针对aec的far-end 和near-end 的输入增加了对输入数据的处理:
dˆ(n) 是 adaptive filter的输出;
sAEC(n) = residual echo + background noise + the near-end signal;
在TCN的shallow block中将 dˆ(n) 和sAEC(n) 作为输入可以假设计算之间的相关性;
论文给的实验结果看起来不还错,需要再验证;

本文由博客群发一文多发等运营工具平台 OpenWrite 发布

Conv-TasNet 是一种用于语音分离的神经网络模型。它的特点是采用深度卷积神经网络来进行特征提取和音源分离,相比于传统的算法具有更好的性能。 Conv-TasNet 的代码实现包括两部分:网络架构和训练过程。在网络架构中,主要包括深度卷积神经网络的搭建和损失函数的设计。在训练过程中,主要包括数据预处理、模型训练和结果评估等步骤。 网络架构部分,Conv-TasNet 采用了一种叫做“时间域卷积递归网络”(TD-ConvRNN)的模型,该模型可以有效地提取时域特征。然后再通过一系列卷积层实现音源分离。而该模型的损失函数采用的是 SI-SNR(Scale-Invariant Source to Noise Ratio),这个指标可以测量分离后的语音信号与原始语音信号之间的相似度。 训练过程中,主要步骤包括: 1. 数据预处理:将原始语音信号分解成单独的语音源和背景噪音,并对数据进行标准化。 2. 模型训练:采用反向传播算法和随机梯度下降优化算法,不断更新模型的权重和偏置,以最小化损失函数。 3. 结果评估:通过计算 SI-SNR 来评估模型的性能,同时还可以采用其他指标,如 PESQ(Perceptual Evaluation of Speech Quality)等来评估模型的表现。 总的来说,Conv-TasNet 的代码解析较为复杂,但在语音分离领域具有较为优异的表现。用户可以参考官方提供的代码和相关论文进行深入研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值