语音信号处理过程以及一些基本概念
语音分离的过程:首先输入数据,此时数据包括speech目标语音,noise 噪声以及混合语音(带噪语音),经过时频分解-目标计算、特征抽取等一系列操作进入到模型训练,最后分离模型。
基本知识:
1、基于深度学习的语音增强方法主要包括mask和mapping。
mask:译为掩膜、掩码,是深度学习中的常见操作。简单来说,其相当于在原始输入数据(张量)盖上一层掩膜,从而屏蔽或选择一些特定元素,因此常用于构建张量的过滤器。
1)、基于mask的方法又可以分为“理想二值掩蔽”(Ideal Binary Mask IBM)中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,把对应的时频单元的能量设为0(噪音占主导的情况下)或者保持原样(为1)(目标语音占主导的情况下)。
2)、第二类基于Mask的方法是IRM(Ideal Ratio Mask),它同样对每个时频单元进行计算,但不同于IBM的“非零即一”,IRM中会计算语音信号和噪音之间的能量比,得到介于0到1之间的一个数,然后据此改变时频单元的能量大小。IRM是对IBM的演进,反映了各个时频单元上对噪声的抑制程度,可以进一步提高分离后语音的质量和可懂度。
2、mapping:映射。最简单的映射例子就是我们曾学过的函数映射 f(x)=y在语音信号处理过程中,我们是将混合语音映射为est。频谱映射可以使用幅度谱、功率谱、梅尔