在十年前,声学前端(音频前处理)还主要是基于传统信号处理的方法,在很长的一段时间里,研究者们建立了一整套涵盖单通道和多通道的语音增强、语音分离、回声消除、声源定位、波束形成等技术,这些技术许多都是基于最优线性自适应滤波理论的。最近几年里,深度学习方法被引入到音频前处理领域,并在多个任务中(比如语音分离和增强)性能超越传统信号处理方法,展现了极大的潜力。不过到目前为止,我们看到两种方法各有千秋。他们的主要区别有以下几点:
- 哲学思想上的区别。传统信号处理方法主要基于还原论(Reductionism),把问题分割成一个个的子问题,并对子问题在设定的假设下进行一步步的细化,推导出解。每一步的分割、假设和推导都有迹可循。深度学习方法更像是中国传统的整体论(Holism)哲学思想,关注的是端到端的性能,对中间结果往往不观注,而且中间状态常常没法解释。
- 原理上的区别。传统信号处理方法大多是基于物理和数学原理推导的,而这些原理是基于人类几千年的认知发展而来,是人类智慧归纳演绎的结晶。这些原理放之四海而皆准,所以系统一般有比较好的鲁棒性。深度学习方法更多的是机器在特定训练集上基于iid假设针对某一个目标(比如降噪)而做的优化,性能的决定因素来自于训练集大小、训练集的代表性、使用的模型、训练过程和准则等,性能的变化范围较大,系统在新环境下鲁棒性较差。
- 信息使用上的区别。传统信号处理方法主要使用当前信号,其他人类基于研究观察总结出的原理直接集成在算法中了。深度学习方法除了使用当前信号之外,还能(或还需要)充分使用采集到的(距离当前信号可能很久或很远的)训练集里的信息,事实上