波束和BSS问题中的gevd_gev波束和固定mvdr-CSDN博客

本文链接：https://blog.csdn.net/longtaochen/article/details/124107580

- 波束部分

1. MaxSNR Beamforming
根据MaxSNR Beamforming的公式有: $w=arg\_max \frac{w^hR_sw}{w^hR_nw}$ ,其中 $w$ 即为滤波器系数。如上的无约束最大值问题对于 $w_{snr}=k*w_{snr}$ 仍然是成立的，也就是有一个尺度上的无约束。可设定 $w^hR_nw$ =1；则转化为: $arg\_max\frac{w^hR_sw}{1}$ 且 $w^hR_nw=1$ 。如上问题为一个有约束的优化问题，可通过拉格朗日乘子约束转化为无约束问题:
$f(w)=w^hR_sw+\lambda(w^hR_nw-1)$
通令求 $f (w)$ 的微分=0即可转化为GEVD问题: $R_sw=\lambda R_nw$ 。
设 $\lambda_1$ , $\lambda_2$ , $w_1$ , $w_2$ 为( $R_s$ , $R_n$ )的广义特征值和对应的特征向量， $\lambda_1$ > $\lambda_2$ 。其中 $w_1$ 即为上述问题的解。而 $w_2$ 为 $min{f(w)}$ 问题的解。
如果 $R_s$ 是秩1矩阵，即 $R_s=aa^H$ 。则 $aa^Hw_1=\gamma a=\lambda R_nw_1$ ,进而有 $a=\beta R_nw_1$ 。a即为源s的RTF或者理解为导向向量（此处省去了常数因子）。

对于R_s,R_n均为正定的Hermitian矩阵来说，具有如下性质: $w_1R_sw_2=w_1R_nw_2=0$ 。注意这也是aux-iva中常用的正交迭代约束。

根据如上性质，推导出 $a^Hw_2=0$ , $a$ 理解为导向向量或者delay_sum的滤波器系数，其正交的 $w_2$ 理解为 $a$ 构造出来的BM系数。
2. gev beamforming和MVDR的关系
$w_{mvdr}=\frac{R_n^{-1}a}{a^HR_n^{-1}a}=\frac{\gamma w_{maxsnr}}{\beta w^HR_nw}=\alpha w_{maxsnr}$ MVDR只是gev 波束中通过约束 $a=a/(a_1)$ 限制 $a$ 的大小，解决scaling问题一种方式，二者的滤波器系数方向都是一样的。
3. scale问题
一般在说scale问题的时候大家会想到的是ica类的盲源方法，但gev波束同样也存在。在1.中已经对其产生的原因进行了解释。论文中一般会有这样的一种方式来解决： $g_{ban}=\frac{sqrt(w^HR_n^HR_nw/N)}{w^HR_nw}$ ,看上去和MVDR很像。笔者猜测就是 $w_{mvdr}=g_{ban}*w_{gev}$ (细节推导这里就不体现了),但该公式的物理意义是什么？
$g_{ban}=\frac{\sqrt{(w^HR_n^HR_nw/N)}}{w^HR_nw}=\frac{\lambda \sqrt{(w^HR_s^HR_sw)/N}}{\lambda w^HR_sw}=\frac{\sqrt{(w^HR_s^HR_sw)/N}}{w^HR_sw}$
$g_{ban}*(w^H(R_n+R_s)w))^2=w^H(R_s^HR_s+R_n^HR_n)w/N$
因为声源 $s$ 和噪声 $n$ 并不相关，则
$w^H(R_s^HR_s+R_n^HR_n)w/N=w^H(R_s+R_n)^H(R_s+R_n)w=w^HR_x^HR_xw$
如上有：
$g_{ban}=\frac{\sqrt{(w^HR_x^HR_xw/N)}}{w^HR_xw}$
${w^HR_xw}$ 解释为波束后的能量， $\sqrt{(w^HR_x^HR_xw/N)}$ 为波束后的输出和mic信号相关取模。类似于公式 $\frac{E(xy)}{E(yy)}$ 。通过这种方式可以使得波束后输出信号scale和mic端的信号一个尺度。该方法和ica中只提取一路信号后用Minimal Distortion Principle准则解决scale问题是一致的。
4. 波束的痛点
如上的推导虽然完整，但 $R_n$ 和 $R_s$ 在没有外界信息的情况下是不可获得的。一般基于mask的方式对 $R_n$ 和 $R_s$ 进行估计。 $R_s=E(mask_s*XX^H)$ $R_n=E(mask_n*XX^H)$ mask表征什么样的物理意义，我们这里暂且认为 $mask_{tf}^s=|s_{tf}|/|x_{tf}|$ （这里只讨论幅度谱的mask)。遗憾的是mask也难以得到。当然我们也可以通道doa_mask或者nn_mask的形式获得。波束问题通过mask控制 $R_n$ 和 $R_s$ 的更新过程，而自适应对消则通过mask控制步长。下面我们讨论下盲分离是如何看待这一问题的。

- 盲分离部分

1. 基础回顾
讨论波束时我们强调 $R_n$ 和 $R_s$ 的估计需要引入外界信息，但在bss框架下则通过引入源模型(source model)这一概念来实现对 $R_n$ 和 $R_s$ 的估计，可以理解盲分离是一种全盲波束，它通过对信号幅度谱进行假设建模实现混合数据的分离，而波束是假设数据为高斯分布的半盲分离/提取。
盲分离的一种objective function为:
$J(W)=\sum^K_{k=1}E[G(\mathbf{y}_k)]- \sum_{w=1}^{N_w}log|detW(w)|$ ,其中 $G(\mathbf{y}_k)=-logp(\mathbf{y_k})$ 。
应用辅助函数（这部分大家还是去看论文吧），则有： $J(w)<=E[G^{'}(r_w)/r_{w}*\sum^{N_w}_{w=1}|y_k(w)|^2]+R_k$ 。
$J(w)<=\sum_{w=1}^{N_w}w^hV_k(w)w+R_k,V(k)=E[G(y)/r*x(w)x(w)^h]$

ica: $p(y)=\alpha e^{-(y)^2/2}$ ,时不变高斯模型, $G(y)^{'}/y=1$
ica: $p(y)=\alpha e^{-|y|/2}$ ,laplace模型, $G(y)^{'}/y=1/|y|$
ica: $p(y_{tf})=\alpha e^{-(y_{tf})^2/r_{tf}}$ ,时变高斯模型, $G(y)^{'}/y=1/r_{tf}$
如上看到，如果假设源信号为时不变高斯分布，则 $E[G^{'}(r_w)/r_{w}|x_k(w)|^2]=E|x_k(w)^2|$ ,这也是波束中协方差阵的形式。 平时我们说bss问题是最大化非高斯准则，如果源信号是高斯信号则是不可分的(其对应为 $J (w)$ 函数很难优化， $w$ 找不到一个优化方向)。这句话成立的前提是我们并不知道哪段是语音，哪段是干扰，需要用全盲的方法去做，而对于半盲的方法类似波束，则可以提取出期望信号。这里再多提一句,时变高斯模型组成的协方差阵在WPE中使用。回顾到波束部分的协方差阵估计，在已知mask的情况下，假设源数据为时变高斯信号，则加权协方差阵的形式为: $R_n=E(1/r_{tf}*XX^H)=E(XX^H/(mask^2*||X||^2))$ 。
2. 优化迭代
对 $J (w)$ 进行微分=0操作则有： $w_{l}^HV_lw_k=\delta_{lk}$ 即典型的Hybrid Exact-Approximate Joint Diagonalization [HEAD] problem。如果 $V_l$ 按照时不变高斯分布组成的协方差阵形式，该问题很难优化，而在其他数据分布下可通过ip,ip2,iss,iss2等方法进行迭代求解，具体可参考文献。
两个源两个mic的情况下(对于多源问题同样可以转化为GEVD问题来求解，这里不进行推导)满足：
$w_1^HV_1w_1=1 \qquad w_1^HV_1w_2=0$
$w_2^HV_2w_1=0 \qquad w_2^HV_2w_2=1$
由上可得：
$w_1V_1=\lambda w_1V_2$ ,也就是和maxSnr波束类似的GEVD问题的解析解形式。选择最大特征值对应的特征向量则可表征为: $f(w)=max\frac{w^HV_1w}{w^HV_2w}$ , $V_1$ 对应的矩阵为语音阵, $V_2$ 对应的矩阵为噪声阵。根据如式依次迭代最终便分离出两个源信号。由于初始化的问题，在整个全盲求解过程中最终分离的结果顺序未知。
3. scale问题和source image
根据波束篇已经讨论了一种scaling问题的求解方式且适用于盲分离，这里讨论另外一种形式。已知分离矩阵 $W$ (存在scale问题）,则 $A W = 1$ 约束下可以得 $A=W^{-1}$ 。A表征源S到mic的传递函数。对于 $A.*WX=[y_{11} \quad y_{12};y_{21} \quad y_{22}]$ 反应的是[ $S_{1} \quad S_{2}$ ]到[ $mic_{1} \quad mic_{2}$ ]的接收信号，即source image，至此scale问题解决。其中 $A=[a_{11} \quad a_{12};a_{21} \quad a_{22}]$ 。 $a_{11}+a_{12}$ 反应的是对 $S 1$ 进行delay_sum为90度的波束。 $a_{11}-a_{12}$ 反应的是对 $S 1$ 进行差分的波束。即在盲源问题中可以分别求得源S到mic端的接收信号，对于波束问题同样也可以得到source image，只是beamforming 很少进行这样的讨论。在有些论文中我们看到对source image后再进行固定波束delay_sum的处理，是一种基于已知数据方向后的加权修正方式。
4. BSS框架下的扩展讨论
通过控制 $r_{tf}$ 即控制了输出结果，和波束问题一样但加权的系数不同。论文通过导向向量 $[e^{iw\tau_1} \quad e^{iw\tau_2}...]$ 加权到协方差阵的方式个人认为并不合适，由于导向向量的形式并不能真实反映RTF，加入的不准确先验会影响真实数据构成协方差阵的结果，还不如通过先验 $r_{tf}$ 来的直接，比如基于doa信息计算doa_mask来估计 $r_{tf}$ (大概估计结果就行，不需要完全准确)，bss模型计算出来的 $r_{tf}$ 和先验 $r_{tf}$ 加权等。对于ive,ilrma,mnmf,和bss和网络的结合这里不进行讨论。
Minimal Distortion Principle for Blind Source Separation