单通道语音增强Speech enhancement文献汇总

最新推荐文章于 2024-08-13 08:07:23 发布

置顶

dakenan1

最新推荐文章于 2024-08-13 08:07:23 发布

阅读量4.2k

点赞数 1

分类专栏：语音增强文章标签：语音增强 BLSTM Attention 注意机制

本文链接：https://blog.csdn.net/dakenan1/article/details/100011890

版权

这篇博客总结了两篇关于单通道语音增强的论文。第一篇提出了一种基于注意力机制的LSTM模型，该模型在语音增强中表现出色。第二篇介绍了使用BLSTM的师生学习方法，通过教师网络提供高质量掩码来训练学生网络，实现单通道语音增强。实验结果显示，注意力机制和师生学习在语音增强任务中都有显著效果。

摘要由CSDN通过智能技术生成

论文一：基于注意机制的神经网络单通道语音增强方法
核心工作：提出基于注意机制的单通道语音增强方法，关注音频流的重要语音成分并适当降低对噪声、干扰的注意力。
注意力机制（attention-based）：
1. 注意力机制需要决定整段输入的哪个部分需要更加关注；
2. 从关键的部分进行特征提取，得到重要的信息。
3. RNN模型在预测增强帧时隐式地学习过去输入特征的权重，而注意机制计算过去帧与要增强的当前帧之间的相关性，并且明确地给过去的帧赋予权重；
算法分类：
1. 统计算法：谱减法、维纳滤波、最小均方差对数谱法等
2. 数据驱动算法：非负矩阵分解、神经网络
神经网络结构：分为编码器（堆叠和扩展）、注意机制、生成器。
在这里插入图片描述
实验结果：
1. 基于注意力机制的LSTM始终优于最佳修正对数谱（OM-LSA）和LSTM，堆叠编码器略好于扩展编码器
2. 因果局部注意力模型具有比因果动态注意力模型更好的性能或甚至更好的性能，证明语音增强不需要考虑太长的历史信息