AAAI 2020丨从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务
编者按:在刚刚落幕的 Ignite 大会上,微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频,Microsoft Stream 都能自动过滤背景噪音,让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发,研究团队提出了关注相位和谐波的语音增强模型 PHASEN,通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。
摘要
我们提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network),主要的贡献在于两点:
1. 考虑到相位预测对于语音增强的重要性,我们提出了双流模型结构,分别处理相位和强度信息,并设计了双向信息交互通道。实验证实双流之间的信息交互对相位估计至关重要。
2. 我们提出了频域变换模块 FTB (Frequency Transformation Block),用于在深度神经网络结构中高效整合全局频域相关性,尤其是谐波相关性。通过对于 FTB 参数的可视化,我们可以发现 FTB 自发地学到了谐波相关性。
以上两点使得我们的模型能够同时意识到相位信息以及谐波相关性,从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank + DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。
下文中我们将详细介绍问题提出的背景、实现细节以及实验结果。