强噪声环境下的vad_基于卷积非负矩阵部分联合分解的强噪声单声道语音分离

028f903cbd2361348cdd31ec3d9f77f2.png

文献信息:董兴磊,胡英,黄浩,吾守尔·斯拉木. 基于卷积非负矩阵部分联合分解的强噪声单声道语音分离[J]. 自动化学报, 2018(12):1-10.

作者信息:董兴磊,胡英,黄浩,吾守尔·斯拉木:新疆大学信息科学与工程学院

摘 要:卷积非负矩阵分解(CNMF)采用卷积基分解的方法进行矩阵分解, 在单声道语音分离方面取得较好的效果。非负矩阵部分联合分解(NMPCF)是指将特定信号频谱与混合信号频谱进行联合分解, 以帮助确定该信号的基向量进而提高信号分离性能。为了实现强噪声条件下的语音分离, 本文结合以上两种算法的优势, 提出一种基于卷积非负矩阵部分联合分解(CNMPCF)的单声道语音分离算法。实验结果表明,在不同噪声类型和噪声强度条件下, 本文提出的方法相比于以上两种方法均有不同程度的提高。

  1. 序言

语音分离是语音信号处理的重要分支, 旨在从被干扰的混合信号中分离出纯净的语音信号, 以提升语音信号的可懂度。语音分离过程可以表达成一个有监督学习问题。语音分离系统通过有监督学习算法, 学习一个从混合语音的频谱到纯净语音频谱的映射函数以实现语音分离。其中主流的有监督学习算法包括基于非负矩阵分解、基于计算听觉场景分析和基于深度神经网络的语音分离算法。卷积非负矩阵分解 (CNMF)算法采用一系列语音基矩阵集进行语音频谱的矩阵分解,在指定说话人条件下的单声道语音分离得到了较好的效果。在此基础上,非负矩阵部分联合分解(NMPCF)算法被提出,解决了在没有先验知识情况下的语音信号分离问题。本文结合 CNMF 和 NMPCF 算法的优势, 提出一种卷积非负矩阵部分联合分解算法用于强噪声条件下的单声道语音分离。

  1. 算法模型

1)卷积非负矩阵分解(CNMF)算法使用一组二维基向量集{W(t), t∈[0,T −1]}及其系数矩阵H对应元素之间卷积求和运算的结果来表示待分解矩阵 V。数学模型可以表示如下:

679958ff428c7cc85c69e595fc335076.png

式中 W(t)是基矩阵集, 包含 T个基矩阵, 其中 t ∈ [0,T −1], H是系数矩阵, (t→) 运算符表示右移 t 列, 同时将左边空出的 t 列补零。以基向量个数R = 40, 时间跨度T 8为例, 图1集中显示了40个从干净语音频谱中提取出的基向量结果。

7ccd1553c7cb8adc5b7e7f50bc9bfcc1.png

可以看出每个基向量都能表示语音片段的一部分, 有的基向量与音素频谱一致, 有清晰的谐波成份且有音高的变化波形; 有的基向量与清音频谱一致, 在整个频域范围内都有能量。

2)非负矩阵部分联合分解(NMPCF)算法利用其他的信号频谱来进行矩阵联合分解, 能自动的区分出待识别信号和其它信号的基向量。

本文提出的卷积非负矩阵部分联合分解(CNMPCF)算法结合了非负矩阵部分联合分解(NMPCF)和卷积非负矩阵分解(CNMF)的优势,用于强噪声条件下的单通道语音分离。算法模型示意图如图 2 所示。

8cf1ec6635f0bc3c46fc7a71d93663da.png

首先,通过基音检测算法检测混合语音信号的基音频率以确定语音片段的起始点, 据此将混合语音信号分割为语音片断和无语音片断 (不同强度的纯噪声片断). 语音片断和噪声片断频谱分别用矩阵V和 N 表示. 混合信号频谱矩阵 V 分解模型如下:

7f74953918febef71698ba3d7e6ef532.png

考虑到混合信号中的语音成分具有时频域的相关性, 而噪声则只具有频域上的相关性, 因此, 在分解模型中, 语音片段采用 CNMF 分解, 即语音基向量包含在一系列基矩阵集中, 而噪声片段采用标准 NMF 分解, 噪声基向量包含于一个基矩阵中。

本文采用扩展 K-L 散度作为目标函数:

d5b05f5199d1d3b0833f9fe1a2d4ffb9.png

c1e9ad286a75b0a751073c643d323428.png

式中 λv, λn 和 λs 分别是反映带噪语音频谱、干净语音频谱和纯噪声频谱在联合分解中相对重要性的参数。实验中, 选择事先采用 CNMF 算法训练干净语音样本, 得到语音基矩阵集{Ws(t), t ∈[0,T-1]}. 在测试阶段, 仅有 V 和 N 做联合分解. 在分解过程中, 语音基矩阵集{Ws(t), t ∈[0,T-1]}保持不变, 仅更新Hs, Wn 和 Hn 即可。相应的更新迭代公式如下:

e7fef1142b1cae54a6a8fd9a5684f909.png

上述更新公式中, Hs 是 T 个 Ws(t) 基矩阵更新后的平均值. 利用事先训练得到的纯净语音的基矩阵集, 对带噪语音和纯噪声幅度谱矩阵进行联合分解, 分别 得到语音的系数矩阵、噪声的基矩阵和系数矩阵。最后, 采用维纳滤波方法得到分离语音的幅度谱, 进而利用带噪语音的频谱相位通过短时傅立叶变换的反变换 ISTFT 和重叠相加法重构出分离的时域语音信号。维纳滤波方法公式如下:

cd9ee13cff67d58fd2c6dfb616e740b6.png

3. 性能评估和比较

本文采用3种指标将所提出的 CNMPCF 算法同 NMPCF 算法和 SCNMF 算法分别作比较,然后再与本算法获得最佳性能的结果进行比较。此外, 采用对比听音方式邀请 20 名大学生对上述三种算法分离出的语音进行打分作为主观评价指标。

3.1 实验数据及设置

实验中纯净语音选自 TIMIT 标准语音库, 该语音库共有 168 个说话人, 每个说话人有 10 条语 音, 共 1680 条语音. 随机选取每个说话人中的 1 条 语音. 噪声样本选取 Noisex-92 标准噪声库中 4 种典型的噪声: Pink 噪 声、Babble 噪声、M109 噪声和 F16 噪声.采用基音检测算法检测语音信号的基音频率,采用 Hamming窗计算信号幅度谱。

3.2 对比方法及评价指标

实验中采用语音质量客观估计方法(PESQ), BSS-EVAL体系的信号失真比(SDR), 以及信噪比增益 ∆SNR分别评估分离语音的质量和分离算法的实际性能。

主观听音测试的评分标准如下: 声音清晰, 音色饱满, 没有干扰判定为 5 分; 声音比较清晰, 有干扰, 但不易察觉判定为 4 分; 声 音一般清晰, 干扰可察觉, 但影响不大判定为 3 分; 声音清晰度明显变差, 干扰增加较多, 影响收听判定 为 2 分, 声音不清晰, 并有严重干扰, 无法收听判定为 1 分。

3.3 语音边界检测

本算法通过检测语音的起始点来确定噪声片段。图 3 显示纯净语音与带噪语音的起始点和终止点的检测结果.

93a6ed68dc22ac724ed49981564b9408.png

图 3(a) 显示一段干净语音边界检测结果, 竖线指示语音段的起点 (上界) 和终点 (下界). 图 3(b)、(c) 显示了混合语音的两种 VAD 检测上、下界结果. 相邻两段语音中间是纯噪声片段, 为了保证参与联合分解的噪声片段的纯净, 检测的上界应位于语音起始点之前以及检测的下界应位于语音终止点之后, 如图 3(c) 所示。

实验中选择基音检测算法和声音激活检测算法来确定语音片段和纯噪声片段。选择 SNR 为 −12dB、被 Pink 噪声污染的混合语音为 VAD 测试样本, 图 4 显示 1680 个样本语音边界上界和下界的检测结果的概率分布. 以人工标注语音上、下界作为标准, 显示两种 VAD 检测算法得到的上、下边界的偏差值的概率分布。

1495ad22da7a3312297e8d765a2b4102.png

从图 4 可以看出, 与 VAD2 算法相比, VAD1 算法检测的语音上界更多的分布在标准语音起始点之前, 且 VAD1 算法检测的语音下界更多的分布在标准语音起始点之后, 因此本文选择基音检测算法作为语音边界检测算法以确定噪声段.

3.4 实验结果及分析

本小节将通过 PESQ、SDR、∆SNR 和主观听音得分四种指标来度量分离性能. 每种指标都将展示对比的三种算法和本算法在最优边界检测结果条件下, 分别在 4 种不同噪声, 5 种不同信噪比下得到平均结果如图5所示。

085c3ef373489f2579b8d7005eb70bc6.png

从图 5 的 PESQ 结果来看, 本文所提出的 CNMPCF 算法在 4 种不同噪声, 5 种不同信噪比下, 都略优于 NMPCF 和 SCNMF. 在 4 种不同的噪声类型下, CNMPCF 算法的 PESQ 测量值相比于 NMPCF 算法平均高出约 0.1, 相比于 SCNMF 算法平均高出0.26, 参考结果 Reference 的PESQ 测量值相比于 CNMPCF 平均高 0.05。

CNMPCF 算法与 NMPCF 和 SCNMF 的 SDR 值结果如图6所示。

1a54ca01e7b1ece0f9668c4410eea52b.png

从图6可以看出,CNMPCF 算法相比于 NMPCF 和 SCNMF 均有较高的SDR 值。CNMPCF 算法的 SDR 值相比于 SCNMF 算法平均提升了约 5dB, 相比于 NMPCF 算法平均提升了约 3dB. 参考结果 Reference 的 SDR 值相比于 CNMPCF 算法平均高出 1.4dB 左右, 这表明 CNMPCF 算法在失真度较小的情况下, 仍能保证较好的语音质量。强噪声下 CNMPCF 分离性能提升较为明显。

图 7 显示的信噪比增益 ∆SNR 测量值。

b8bcbc4039176f3164f2cf74ef5b8ff4.png

由图7可以看出, 随着混合语音信号信噪比的下降, NMPCF 和 SCNMF 两种分离算法的 ∆SNR 值也随之减小, 而 CNMPCF 算法在低信噪比时的 ∆SNR 值也能保持与信噪比较高的 ∆SNR 大略相当。

表 1 列举了在不同信噪比下, 3 种分离方法的主观听音得分平均值。

21a78c406ff22cdbf7ec86bf661e6337.png

结果说明, 在 5 种信噪比情况 下, CNMPCF 方法分离的语音的评价得分都略高于 NMPCF 和 SCNMF 方法分离的语音。

总的来说, 与 NMPCF 和 SCNMF 算法相比, 本文所提出的 CNMPCF 算法在不同噪声强度和噪声类型的情况下均能有不同程度的改进.

4. 结论

本文结合卷积非负矩阵分解(CNMF)算法和非负矩阵部分联合分解(NMPCF)算法,提出了一种卷积非负矩阵部分联合分解的语音分离算法,有效的表征原始语音信号的结构特征,对噪声类型和噪声强度有一定鲁棒性, 在低信噪比 (强噪声) 条件下也能获得较好的分离性能。

个人思考:

  1. 本文提出的算法中,由于混合语音中的纯噪声频谱段也用于联合分解,可以认为噪声类型和噪声强度都作为先验信息引入联合分解,所以对噪声类型和噪声强度有一定鲁棒性, 在低信噪比条件下也能获得较好的分离性能。
  2. 文中考虑了Noisex-92 标准噪声库中 4 种典型的噪声: Pink 噪声、Babble 噪声、M109 噪声和 F16 噪声,在今后研究中,考虑在语音信号中加入加性环境噪声时,可以借鉴本文的思路,以便在相同实验设置下对不同方法进行有效对比。

参考文献:

257f7a8be30f3b395881ef0c5077c8ca.png

a157b226253a3e27cba778a5a09ab3d7.png

4036c9f6f09dfdcff0302c5c56d91d1e.png

9ad79e8d7808c8eb7ac8e60d860d22a4.png

a7dae7907907a9cb7efaaa6ccaf6c096.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值