麦克风阵列处理之TF-GSC 广义旁瓣相消器

概述

GSC(Generalized Sidelobe Canceller,广义旁瓣相消器)是麦克风阵列处理中实现语音增强的一种方法。本文主要关注arbitrary ATF(Acoustical Transfer Function)模型下基于频域的TF-GSC(Transfer Function Generalized Sidelobe Canceller)的原理。
  符号表示:对语音信号做短时傅里叶变换,用 k k k 表示各频点, l l l 表示帧编号, S ( k , l ) S(k,l) S(k,l)表示desired signal, Z ( k , l ) = ( Z 1 ( k , l ) , . . . , Z M ( k , l ) ) T \textbf{Z}(k,l)=(Z_{1}(k,l),...,Z_{M}(k,l))^{T} Z(k,l)=(Z1(k,l),...,ZM(k,l))T表示M个麦克风的观测信号, A ( k ) = ( A 1 ( k ) , . . . , A M ( k ) ) T \textbf{A}(k)=(A_{1}(k),...,A_{M}(k))^{T} A(k)=(A1(k),...,AM(k))T表示声源到各麦克风的ATF。 W ( k , l ) = ( W 1 ( k , l ) , . . . , W M ( k , l ) ) T \textbf{W}(k,l)=(W_{1}(k,l),...,W_{M}(k,l))^{T} W(k,l)=(W1(k,l),...,WM(k,l))T表示滤波器的系数。 Y ( k , l ) Y(k,l) Y(k,l)表示TF-GSC的输出。

原理

优化问题

TF-GSC的目标是求解如下优化问题:

$\min\limits_{\textbf{W}}\{ \textbf{W}^{H}(k,l)\phi_{\textbf{ZZ}}\textbf{W}(k,l)\}$ $s.t. \textbf{W}^{H}(k,l)\textbf{A}(k)=1.$
其中$\phi_{\textbf{ZZ}}$是$\textbf{Z}(k,l)$的PSD matrix。由于$Y(k,l)=\textbf{W}^{H}(k,l)\textbf{Z}(k,l)$,因此minimize的对象是$E\{Y(k,l)Y^{*}(k,l)\}$,而约束条件则保证了输出等于$S(k,l)$,因此TF-GSC的目标是求得$\textbf{W}$使得保证完美dereverberation的同时实现最大程度的noise reduction。

TF-GSC结构

picture 图1
  如图1所示,TF-GSC由三部分组成:fixed beamformer($\textbf{W}_{0}$)、blocking matrix($\textbf{H}$)、multichannel ANC($\textbf{G}$)。其中$\textbf{W}_{0}(k,l)=\textbf{A}(k)/||\textbf{A}(k)||^{2}$是上述约束等式的最小范数解,而BM的列张成$\textbf{A}(k)$的零空间,因此总滤波器系数$\textbf{W}(k,l)=\textbf{W}_{0}(k,l)-\textbf{H}(k,l)\textbf{G}(k,l)$总能满足上述约束条件。因此constrained最小化问题可以转化为如下unconstrained最小化问题:
$\min\limits_{\textbf{G}}\{[ \textbf{W}_{0}(k,l)-\textbf{H}(k,l)\textbf{G}(k,l)]^{H}\phi_{\textbf{N}_{S}\textbf{N}_{S}}(k,l)[ \textbf{W}_{0}(k,l)-\textbf{H}(k,l)\textbf{G}(k,l)]\}$
这个unconstrained最优化问题可以用LMS求解。可以看出,fixed beamformer主要实现dereverberation,blocking matrix输出纯噪声,用于产生noise reference signals,multichannel ANC实现自适应降噪。

ATF估计

求解fixed beamformer和blocking matrix需要已知ATF。在实际室内环境下,RIR(Room Impulse Response)非常长,难以估计。RTF(Relative Transfer Function) A ~ ( k ) = A ( k ) / A 1 ( k ) \tilde{\textbf{A}}(k)=\textbf{A}(k)/A_{1}(k) A~(k)=A(k)/A1(k)表示麦克风之间的传输函数,其对应的impulse response能量衰减比ATF快得多,更容易准确估计。[1]介绍了两种估计RTF的方法,思想是求某个等式的least square解,具体方法不再赘述。
  需要注意的是fixed beamformer变为: W 0 ( k , l ) = A ~ ( k ) / ∣ ∣ A ~ ( k ) ∣ ∣ 2 \textbf{W}_{0}(k,l)=\tilde{\textbf{A}}(k)/||\tilde{\textbf{A}}(k)||^{2} W0(k,l)=A~(k)/∣∣A~(k)2。这种情况下算法无法实现dereverberation,因为约束条件只能保证恢复 A 1 ( k ) S ( k , l ) A_{1}(k)S(k,l) A1(k)S(k,l)

Matlab验证

仿真环境:室内环境(RIR由Image method产生)、一位说话人,一个point source noise。6个均匀排布的线阵麦克风,间距为6cm。对比某个麦克风的observed signal与TF-GSC的输出如图2所示。

picture 图2

Q&A

  1. 为什么TF-GSC之后通常要加postfiltering进一步降噪?
      TF-GSC只能消除coherent noise(ANC的局限),实际noise field包括coherent noise、diffused noise、incoherent noise以及nonstationary noise。TF-GSC的ANC部分只能消除coherent noise和diffused noise的低频部分,在其他情况下,TF-GSC的ANC部分没起作用,降噪主要靠fixed beamformer,性能十分有限。加入postfiltering可以提高其他情况下的降噪性能。

Reference

主要参照[1]和[2]两本书,图1来自[1]。

[1]: Gannot S, Cohen I. Adaptive Beamforming and Postfiltering[M]. Springer Berlin Heidelberg, 2008.
[2]: Benesty J, Chen J, Huang Y. Microphone Array Signal Processing[M]. Springer Berlin Heidelberg, 2008.

  • 4
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 46
    评论
评论 46
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值