
时域和频域上的语音增强任务需要大量的计算参数和计算量。为了减小计算量或者模型参数,频域上处理时可以减小分帧或者窗的大小,这种处理方法会让语谱图看起来非常“模糊”,谐波的特性没有很好的表现出来。时域上可以减小分帧的帧长大小,比如conv-tasnet,这种处理方法需要考虑更长的上下文的长度来提高增强或者分离的效果,对于实时处理虽然理论上有着完美的增强上限,实时增强效果或者在一帧一帧处理的时候效果很差(开会的时候也询问过google的Scott他实验中也有类似的问题)。除了减小帧长,还可以分频带来减小参数量和计算量,相关工作有RNNoise、Percepnet系列和Deepfilter等。RNNoise和percepnet通过将频域上的音频分割成不同的子带,计算每个子带中整体的增益,但是这种方式虽然能处理每个子带整体的增益,对于每个子带中的谐波却不能处理,为了提高谐波的强度,这种方法中使用了一种pitch filter或者梳状滤波器。这篇博客旨在按照笔者的理解翻译早期的一篇树状滤波器的论文,加深自身的理解记忆,帮助有需要的同学更好的认识此滤波器。