源分离技术:原理、方法与应用
1. 源分离概述
源分离旨在从混合信号中恢复出各个独立的源信号,这在许多实际应用中极具挑战性但又至关重要。尤其在单通道源分离场景下,当接收到包含两个或更多源信号的单一混合信号时,情况更为复杂。在音频源分离领域,已经提出了多种方法来应对这一情况。
1.1 单通道源分离方法
- 时频掩码方案 :Sawada等人在2011年提出了时频掩码方案,用于识别每个时频槽(f, t)中幅度最大的源信号。具体步骤如下:
- 计算短时傅里叶变换(STFT),得到时频观测向量 $x_{ft}$。
- 对时频观测向量进行聚类,计算向量 $x_{ft}$ 属于某个聚类或源 $j$ 的后验概率 $p(j|x_{ft})$。
- 使用基于高斯混合模型(GMM)的似然函数 $p(x_{ft}|j)$ 进行计算。
- 确定时频掩码函数 $M_{jft}$,以估计单个源 $j$ 的分离信号 $\hat{s} {jft} = M {jft}x_{ft}$。
- 估计源的数量 :在某些情况下,源的数量 $m$ 事先未知。Araki等人在2009年构建了具有狄利克雷先验的GMM,用于从单个时频观测 $x_{ft}$ 中识别源语音信号的到达方向(DOA),并利用DOA信息学习源的数量,开发了用于稀疏源分离的专门解决方案。
- 非平稳混合系统 :通常假设混合系统是时不变的,即混合矩阵