对于一般的波束成形(Beamforming, BF)算法需要知道声源的角度( Direction of Arrivals,DOA),从而进行进一步的抑制干扰。但是角度信息在声学环境较为复杂的情况下难以准确估计,那么可不可不使用角度信息直接进行波束成形呢?答案当然是肯定的,大名鼎鼎的NTT(日本电报电话公司,Nippon Telegraph & Telephone)提出了通过复高斯混合模型估计时频掩码和导向矢量,结合常用的MVDR(最小均方无畸变响应,Minimum Variance Distortionless Response)算法,在CHiME-3数据集上让ASR的WER下降了7个点。
I. MVDR
MVDR中文名字叫最小均方无畸变响应,它的精髓就体现在无畸变上。什么叫无畸变呢,就是在对感兴趣方位(声源方向)的信号无失真地输出,这意味着该算法可以直接当做语音后端算法(如ASR)的前处理过程。MVDR波束形成器的公式推导并不复杂,我们这里简单的介绍一下。MVDR由Capon于1969年提出,也称为Capon波束形成器,它的目标是对感兴趣方位的信号无失真输出的同时使波束输出的噪声方差最小。波束输出噪声方差记为