A Dual-Microphone Speech Enhancement Algorithm Based on the Coherence Function

最新推荐文章于 2022-03-16 18:00:32 发布

373955482

最新推荐文章于 2022-03-16 18:00:32 发布

阅读量1.1k

点赞数 1

分类专栏：数字信号处理 Microphone Array 音频处理文章标签：相干函数 PSD CSD 双麦降噪

本文链接：https://blog.csdn.net/u010592995/article/details/98448573

版权

数字信号处理同时被 3 个专栏收录

29 篇文章 44 订阅

订阅专栏

音频处理

19 篇文章 19 订阅

订阅专栏

Microphone Array

12 篇文章 36 订阅

订阅专栏

(A Dual-Microphone Speech Enhancement Algorithm Based on the Coherence Function) ¹

文章目录

1.系统框图

系统框图如下，输入双通道信号分帧加窗、算个相干函数，就得到了滤波系数 $G$ ,看起来好简单，那就看看它的详细过程

在这里插入图片描述

A. Definition of Coherence Function

输入带噪信号定义为：
$y_{i}(m)=x_{i}(m)+x_{i}(m),i=1,2 \tag{1}$

其中 $i$ 为麦克风序号， $m$ 为采样点

$S T F T$ 到时频域：
$Y_{i}(\omega_{l},k)=X_{i}(\omega_{l},k)+N_{i}(\omega_{l},k),i=1,2 \tag{2}$
其中 $\omega_{l}$ 为角频率, $k$ 为帧序号，下面的表示会省略掉 $l 和 k$ （for better clarity）

输入信号 $y_{1},y_{2}$ 间的复相干函数定义为：
$\Gamma _{y_{1}y_{2}}(\omega ,k)=\frac{\phi_{y_{1}y_{2}}}{\sqrt{\phi_{y_{1}y_{1}}\phi_{y_{2}y_{2}}}} \tag{3}$
其中 $\phi_{uu}$ 为 $P S D$ （power spectral density， $\phi_{uv}$ 为 $C S D$ （cross-power spectral density）
在远场模型下，一个确定的方向声源在两个麦克风 $\theta$ 角方向入射，在两个麦克风处接收到的信号的理想相干函数可以表示为 ²
$\Gamma _{u_{1}u_{2}}(\omega)=e^{j\omega f_s(d/c)cos(\theta)} \tag{4}$
关于这个函数，咱们可以画个图验证以下，信号从双麦 $45^o$ 入射，估计出来的相干函数和理想曲线（上式）的实部和虚部对比作图如下：
在这里插入图片描述
从图中可以看到，式（4）与实际是相符的，但是要注意，这个是无混响的模型（order=0），混响越重这个曲线偏离越大

B. Proposed Method Based on Coherence Function

假设噪声和信号不相关，则接收信号的CSD为目标信号的CSD和噪声信号CSD之和：
$\Gamma _{y_{1}y_{2}}=\Gamma _{x_{1}x_{2}}+\Gamma _{n_{1}n_{2}} \tag{5}$
两边同时除以 ${\sqrt{\phi_{y_{1}y_{1}}\phi_{y_{2}y_{2}}}}$ ，变成这样：
$\Gamma _{y_{1}y_{2}}(\omega ,k)=\frac{\phi_{x_{1}x_{2}}}{\sqrt{\phi_{y_{1}y_{1}}\phi_{y_{2}y_{2}}}}+\frac{\phi_{n_{1}n_{2}}}{\sqrt{\phi_{y_{1}y_{1}}\phi_{y_{2}y_{2}}}} \tag{6}$
同样假定接收信号的PSD为目标信号的PSD和噪声信号PSD之和，同时定义:
$SNR_i = \frac{\phi_{x_{i}x_{i}}}{\phi_{n_{i}n_{i}}} \tag{7}$
　　因为麦克风间距比较小，可以大致认为两个麦克风处的 $S N R$ 基本相同，这样一顿变变变，
接收信号的相干函数就变成了：
$\hat{\Gamma }_{y_{1}y_{2}}(\omega ,k)=\Gamma _{x_{1}x_{2}}\frac{\hat{SNR}}{1+\hat{SNR}}+\Gamma _{n_{1}n_{2}}\frac{1}{1+\hat{SNR}} \tag{8}$
　　看下这个公式，可以知道，当 $SNR高（\rightarrow +\infty）$ 时， $\hat{\Gamma }_{y_{1}y_{2}}(\omega ,k)$ 主要受目标信号的相干函数影响，当 $SNR低（\rightarrow 0）$ 时， $\hat{\Gamma }_{y_{1}y_{2}}(\omega ,k)$ 主要受噪声信号的影响（其实这个结论不经过这一顿猛于虎的操作也能理解），
　　好了，接下来，就到最重要的一个分析公式了，将理想的相干函数（4）代入到（8）（欧拉公式替换）得到：
　　 $\hat{\Gamma }_{y_{1}y_{2}}(\omega)=[cos(\omega \tau)+jsin(\omega \tau)]\frac{\hat{SNR}}{1+\hat{SNR}}+[cos(\omega \tau cos\theta)+jsin(\omega \tau cos\theta)]\frac{1}{1+\hat{SNR}} \tag{9}$
　　其中 $\tau =f_s (d/c)$ ，后面会根据（9）式的特定设计想要的增益函数

下面来分析下噪声在不同位置时的情况：

$\theta=90^o$
当干扰在双麦正前方的时候，看式(4)，cos(90)=0，因此这个时候，噪声产生的相干函数之为1，为实数，没有虚部，看式(9)，可以知道，这个时候只有当语音存在的时候， $\hat{\Gamma }_{y_{1}y_{2}}(\omega)$ 才有虚部（这个特点在这里好像并没有起到什么作用？），因此，这种情况下，增益函数就应该抑制相干函数实部为1的信号，如是，提出增益函数如下：
$G_1(\omega,k)=1-\begin{vmatrix} real(\hat{\Gamma }_{y_{1}y_{2}}(\omega,k)) \end{vmatrix} ^{P(\omega)}\tag{10}$
这个函数的曲线如下³:

在这里插入图片描述
　　从这个曲线图来看，当输入接近1的时候， $G_1$ 的值很小，起到抑制作用，同时，指数系数 $P$ 能够控制衰减量的大小。

$90^o<\theta\leq 180^o$
　　上面 $\theta=90^o$ 咱们看的是相干函数的实部特点，这里 $90^o<\theta<180^o$ 的时候，干扰信号的相干函数也是有虚部的，那就看下带噪信号相干函数的虚部有什么规律
　　由（9）可以直接写出 $\hat{\Gamma }_{y_{1}y_{2}}(\omega)$ 的虚部表达式如下：
　　 $imag[\hat{\Gamma }_{y_{1}y_{2}}(\omega)]=sin(\omega \tau)\frac{\hat{SNR}}{1+\hat{SNR}}+sin(\omega \tau cos\theta)\frac{1}{1+\hat{SNR}} \tag{11}$
　　当 $\hat{SNR}高（\rightarrow +\infty）$ 时， $\hat{\Gamma }_{y_{1}y_{2}}(\omega ,k)$ 主要受目标信号的相干函数影响，当 $\hat{SNR}低（\rightarrow 0）$ 时， $\hat{\Gamma }_{y_{1}y_{2}}(\omega ,k)\approx sin(\omega \tau cos\theta)$ ，即主要受噪声的影响，
　　根据前面假定的 $\omega<\pi,fs=16000$ ，麦间距为20mm左右，因此 $\tau =fs*d/c也是小于1$ ，这样的条件下 $sin(\omega \tau cos\theta)$ 恒小于0的，这就揭示了一个现象：当噪声占主要成分时，相干函数虚部为0的概率就更大。
　　这里也举两个极端的例子，
　　当 $\theta=180^o$ 时，若 $imag[\hat{\Gamma }_{y_{1}y_{2}}]<0$ ，根据式（11）可以得到 $\hat{SNR}<1（0dB）$ ，而
　　当 $\theta=90^o$ 时，这是上面已经讨论过的一种情况，此时若还需要 $imag[\hat{\Gamma }_{y_{1}y_{2}}]<0$ ，则根据（11）式得到 $\hat{SNR}<0$ ，而由 $\hat{SNR}$ 的定义（7）可以知道 $\hat{SNR}$ 是恒为正的，因此这也的确不属于这里讨论的范围。
　　综上讨论，当 $90^o<\theta\leq 180^o$ 时，增益函数设计为：
　　 $G_2(\omega ,k) = \left\{\begin{matrix} \begin{aligned} &mu,imag[\hat{\Gamma }_{y_{1}y_{2}}(\omega)]<Q(\omega)\\ &1,otherwise \end{aligned} \end{matrix}\right.\tag{12}$

最终的增益函数：
　　讨论了 $\theta=90^o$ 和 $90^o<\theta\leq 180^o$ 的两种情况，最后得到的增益函数为
　　 $G(\omega,k)=G_1(\omega,k)*G_2(\omega,k)$
当一个滤波器激活的时候另一个滤波器接近1，因此两个滤波器相互并不影响
最后实现的时候还根据不同频段的特点分频段处理，详细内容可以看看作者论文中的分析

看看处理前后的区别：
在这里插入图片描述

这篇论文中的方法输出音频幅度为变小一些，但放大点可以看到对 $90^o$ 的干扰抑制还是很明显的
References:

Yousefian, N., & Loizou, P. (2011). A Dual-Microphone Speech Enhancement Algorithm Based on the Coherence Function. IEEE Transactions on Audio, Speech, and Language Processing. ↩︎
M. Brandstein and D. Ward, Microphone Arrays: Signal Processing Techniques and Applications. Berlin, Germany: Springer Verlag,2001（p.32） ↩︎
N. Yousefian, K. Kokkinakis, and P. C. Loizou, “A coherence-based algorithm for noise reduction in dual-microphone applications,” in Proc.Eur. Signal Process. Conf. (EUSIPCO’10), Alborg, Denmark, Aug.
2010, pp. 1904–1908 ↩︎