python爱心代码_语音增强论文及相关代码整理-CSDN博客

在很多年前，语音增强的主要方法还是一些传统的方法，例如基于模型的，基于滤波器的等等，这些传统的方法大多数都被前辈大佬们研究透了，也已经很成熟了，也是目前工业上用于前端去噪的常用方法，经典的webrtc中的降噪目前使用的就是基于维纳滤波的降噪算法，有兴趣的可以拿来webrtc语音处理的c代码一下，最近看了一下，脑瓜子嗡嗡的。

自从深度神经网络在计算机视觉领域取得了巨大成就以后，语音增强领域的大佬们也都按耐不住了，想亲自尝试一把。最早出现的应该是基于全连接深度神经网络语音增强算法，也取得了不错的效果，后来不断有学术界的大佬们开始尝试各种网络，不完全统计包含全连接神经网络、卷积神经网络、全卷积神经网络、扩大（空洞卷积）卷积神经网络的、循环神经网络、LSTM、GRU、生成对抗网络、Wasserstein生成对抗网络、条件生成对抗网络等等各式各样的网络。目前还有基于语音合成的语音增强方法（论文在下面，2019年的ICASSP）。虽然各个算法出现，但是目前想用在工业上还需要一段时间，这些方法基本毫无例外的都会对语音的频谱造成一定的破坏，想用在语音识别前端，提升识别率，我劝你谨慎，实验结果会令你大失所望。我觉的如果想用于纯粹的降噪系统中，例如（耳机，助听器等设备），我觉得还是可以的，因为人对于有频谱损失的音频还是听不出来的。

下面是整理的基于各个网络的语音增强算法以及相关的代码。

最近在深度学习在语音增强中的应用最前沿的应该数GAN网络了吧，把生成器当做增强网络，用判别器区分干净语音和增强语音。

1 .SEGAN: Speech Enhancement Generative Adversarial Network 【相关代码】

2. Speech Enhancement Based on A New Architecture of Wasserstein Generative Adversarial Networks

3. Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verification

4.Language and Noise Transfer in Speech Enhancement Generative Adversarial Network

5.Exploring speech enhancement with generative adversarial networks for robust speech recognition

6.Time-Frequency Masking-based Speech Enhancement using Generative Adversarial Network

7.Adversarial Feature-Mapping for Speech Enhancement[微软AI研究院]

8.Sergan: Speech Enhancement Using Relativistic Generative Adversarial Networks with Gradient Penalty[ICASSP2019][相关代码]

9.CP-GAN:Context Pyramid Generative Adversarial Network for Speech Enhancement[ICASSP2020]

10.PAGAN:A Phase-adapted Generative Adversarial Network for Speech Enhancement[ICASSP2020][相关代码]

11.Tdcgan: Temporal Dilated Convolutional Generative Adversarial Network for End-to-end Speech Enhancement[2020/08/18最新]

在卷积神经网络方面，有基于全卷积的，有基于冗余卷积的，在时域上和在频域上处理语音。论文链接如下：

1.Single channel speech enhancement using convolutional neural network 【相关代码】

2.A Fully Convolution Neural Network for Speech Enhancement

3.Raw Waveform-based Speech Enhancement by Fully Convolutional Networks

4.Speech Denoising with Deep Feature Losses 【相关代码】

5.A New Framework for Supervised Speech Enhancement in the Time Domain

6.A Wavenet for Speech Denoising【相关代码】

7.Fully Convolution Recurrnet Network for Speech Enhancement[ICASSP2020]

在DNN方面，主要是在频域内处理语音，通过短时傅里叶变换求得短时频谱，然后对短时频谱进行处理，利用含噪语音的相位进行重构增强语音。还有一些小是DNN和传统语音增强方法进行结合的办法，把传统语音中的features换成DNN网络，基本这个套路。论链接如下：

1.Speech Enhancement In Multiple-Noise Conditions using Deep Neural Networks

2.NMF-based Speech Enhancement Incorporating Deep Neural Network 【相关代码】

3.A Novel Single Channel Speech Enhancement Based on Joint Deep Neural Network and Wiener Filter

4.An Experimental Study on Speech Enhancement Based on Deep Neural Networks 【相关代码c++】【相关代码python】【相关代码matlab】

5.A Regression Approach to Speech Enhancement Based on Deep Neural Networks 【相关代码见4】

基于RNN或者LSTM的语音增强技术相关文章：

Multiple-target deep learning for LSTM-RNN based speech enhancement 【相关代码】
Densely Connected Progressive Learning for LSTM-Based Speech Enhancement(2018 ICASSP)【相关代码】