时域和频域上的语音增强任务需要大量的计算参数和计算量。为了减小计算量或者模型参数,频域上处理时可以减小分帧或者窗的大小,这种处理方法会让语谱图看起来非常“模糊”,谐波的特性没有很好的表现出来。时域上可以减小分帧的帧长大小,比如conv-tasnet,这种处理方法需要考虑更长的上下文的长度来提高增强或者分离的效果,对于实时处理虽然理论上有着完美的增强上限,实时增强效果或者在一帧一帧处理的时候效果很差(开会的时候也询问过google的Scott他实验中也有类似的问题)。除了减小帧长,还可以分频带来减小参数量和计算量,相关工作有RNNoise、Percepnet系列和Deepfilter等。RNNoise和percepnet通过将频域上的音频分割成不同的子带,计算每个子带中整体的增益,但是这种方式虽然能处理每个子带整体的增益,对于每个子带中的谐波却不能处理,为了提高谐波的强度,这种方法中使用了一种pitch filter或者梳状滤波器。这篇博客旨在按照笔者的理解翻译早期的一篇树状滤波器的论文,加深自身的理解记忆,帮助有需要的同学更好的认识此滤波器。
基于梳状滤波器的语音增强2
于 2023-02-02 16:36:01 首次发布
文章探讨了语音增强任务在时域和频域面临的计算挑战,提出减小分帧和窗大小可能导致语谱图模糊。时域方法如conv-tasnet需要长上下文,可能影响实时性能。文章提到了RNNoise、Percepnet和Deepfilter等通过分频减少计算量,但无法处理谐波细节。为解决这个问题,文章介绍了树状滤波器的概念,它旨在改善子带内的谐波处理。博客旨在翻译早期相关论文,增进对这一滤波器的理解。
摘要由CSDN通过智能技术生成