在日常生活的环境中,噪声是无处不在的,在对讲的场景中噪声是影响语音通话质量的重要因素。语音降噪技术通过消除噪声并提取干净语音,从而提高语音质量和可懂度。在实际生活或生产场景中噪声又分为稳态噪声和非稳态噪声,例如,环境背景噪声,路边的汽车来来回回的噪声都属于稳态噪音;而鼠标点击声、键盘声、敲击声、空调声、厨房碗碟碰撞声等都属于非稳态噪音。相比于稳态噪声,非稳态噪声在处理上的难度更高。近年来,以深度学习为代表的AI降噪技术无需像传统语音增强算法一样对信号特性进行假设,在非平稳噪声上的表现取得了显著提升。
当前降低噪声的主流方案主要有传统降噪和AI降噪。常规去噪方法运算量小,具有实时降噪的优点,但同时,由于其基于数学原理和物理原理的推导,不可避免地基于人类认知的理想先验假设,这使得传统降噪对于真实场景中频繁发生的多种类非稳态噪声表现不佳,特别是在对讲的场景中,使用环境非常复杂,作业场景中的突发非稳态噪声的种类特别多。
AI去噪是近年来兴起的一种基于数据驱动的降噪方法,可以有效地应对各种非平稳噪声,但是前期需要进行大量的数据训练,快对讲将实际用户场景中共享的大量音频数据作为数据源,并建立适当的数据模型作为基础。在移动端模型的部署中,还需要综合考虑各种因素,如模型大小、降噪效果、CPU占用率和内存占用率,也对降噪技术的实现提出了挑战。
得益于谷歌开源的TensorFlow,可以让我们更方便快捷的创建了AI降噪模型训练框架。快对讲结合用户不断提出的高要求,使用TensorFlow机器学习平台上构建了一个并行训练的AI降噪与