0. 题目
DENOISING-AND-DEREVERBERATION HIERARCHICAL NEURAL VOCODER FOR ROBUST WAVEFORM GENERATION
去噪和去混响杂波的多层次神经声码器-用于鲁棒波形生成
1. 摘要
本文提出了一种去噪和去混响分层神经声码器(DNR-HiNet),用于将嘈杂和混响的声学特征转换为干净的语音波形。我们主要通过修改原始HiNet声码器中的幅度谱预测器(ASP)来实现它。这种经过修改的去噪和去混响ASP(DNR-ASP)可以根据输入的降级声学特征预测干净的对数幅度频谱(LAS)。为此,DNR-ASP首先预测嘈杂和混响的LAS,与噪声信息有关的噪声LAS,以及与混响信息有关的室内脉冲响应,然后执行初始降噪和去混响。然后,通过另一个神经网络将初始处理的LAS增强为最终的清洁LAS。为了进一步提高生成的干净LAS的质量,我们还在DNR-ASP中引入了带宽扩展模型和频率分辨率扩展模型。实验结果表明,DNRHiNet声码器能够在给定噪声和混响声学特征的情况下生成去噪和去混响的波形,并且优于原始的HiNet声码器和其他一些神经声码器。我们还将DNR-HiNet声码器应用于语音增强任务,其性能与几种高级语音增强方法相比具有竞争力
关键词: neural vocoder, denoising, dereverberation, speech enhancement
神经声码器,去噪,去混响,语音增强
2. 简介
神经声码器可根据声学特征重建语音波形,是文本语音转换&#x