(INTERSPEECH 19)Full-Sentence Correlation: a Method to Handle Unpredictable Noise for Robust Speech

会议:INTERSPEECH 2019
论文:Full-Sentence Correlation: a Method to Handle Unpredictable Noise for Robust Speech Recognition
作者:Ji Ming, Danny Crookes

Abstract

  描述了用于语音识别的全句语音相关的理论和实现,并证明了它对未经训练/未经训练的噪声具有优越的鲁棒性。对于仅用干净语音训练的Aurora 2数据,新方法在多条件训练和自适应方面与现有方法相比具有竞争力,并且在极低的信噪比(-5db)下获得了最低的误码率。进一步对非平稳噪声(流行歌曲、广播新闻等)的实验表明,新方法在处理不可预测噪声方面具有惊人的能力。新方法为我们先前的研究增加了一些新的进展,包括对说话人特征以及语音的其他声学和语义特征的建模从噪声中分离语音,并提出一种新的Viterbi算法来实现语音识别中的全句子相关。

Introduction

  新方法在不需要噪声训练的情况下,能显著提高噪声的鲁棒性,因而可用于处理未经训练或不可预测的噪声。我们认为我们的方法试图直接匹配宽时程语音,这是对深度学习的补充。这项工作将我们先前的研究从语音增强扩展到语音识别。扩展包括用说话人特征作为约束条件的语音提取优化问题和一种新的迭代Viterbi算法来实现语音识别的全句语音相关。

Long segment correlation vs neural networks for noise robustness

新方法ZNCC:
在这里插入图片描述
一个Oracle实验表明,对于六个噪声类型(SNR=5分贝),基于57919个噪声测试语音段,基于最大ZNCC(上行组)和最大高斯似然(下组线),找到最佳匹配语音段作为分段长度L(帧数)的函数的准确性。基于TIMIT数据库,每种类型的噪声和1124863个干净的训练语音片段涉及486个说话人。
在这里插入图片描述
结果显示在图1的下一组线中。对于这种情况,发送语音片段的可能性确实随着片段长度的增加而增加,但是这种增加并不显著。在[18]中,我们提供了一个理论,证实了上述现象的普遍性。

Sentence ZNCC for speech recognition

  我们将这些要求编码成一组约束条件,用于正则化短训练段的选择,以形成最大化ZNCC的潜在语音句子估计。我们将一个有噪声的句子表示为短段x=(x 1,x 2,…,xt)的序列,其中,x t表示以帧x t为中心的段,包括从x t-L到x t+L的2L+1帧。为了简单起见,我们假设一个公共的L用于所有的短段,因此可以在表达式中隐含L。我们可以将x t视为一个典型的上下文窗口,由人工神经元建模[见(2)]。假设有足够的训练数据来捕捉这些短窗口的统计信息。
  给定带噪语音句子X,我们用S=(g1sm1,g2sm2,…,gtsmt)表示基于链式短训练语音片段smt的底层干净语音句子的估计,其中smt是训练片段,作为带噪语音片段X T T中底层语音片段的估计,gtt是估计的增益,m t是模型向量。在我们的研究中,我们假设训练句子被适当地强制对齐并进一步分组到说话人类中,每个说话人类的句子共享相似的说话人特征。因此,我们可以将训练片段分为状态,并进一步分为每个状态中的说话人类。因此,我们定义了用m t=(q t,c t,n t;u t)来识别每个训练段s m t的模型参数,其中q t是该训练段在其中心帧之后的状态指数,c t是该训练段在其来自的训练语句之后的段语音质量指数,n t是给定其状态/说话人组的段序列号。此外,我们还包括段的模型(字或子字)名称作为信息,并在段的中心帧之后用u t索引。这些模型参数将用于定位训练段,并构造声学、语义和说话人类约束,用于链接训练段以形成对潜在语音句子的估计。当我们找到最优估计值时,我们用相应的模型名序列来完成语音识别。

  • A constrained optimization problem(约束优化问题)
  • An iterative Viterbi algorithm(迭代的维特比算法)

Experimental studies

在这里插入图片描述
Aurora 2 woed 错误率(WER%),在每个测试集中对噪声类型进行平均,将所有使用多条件数据和/或自适应训练的最新DNN方法与仅使用干净语音数据而不使用任何噪声预测的建议方法进行比较(数据不可用)。
表1给出了我们所提出的方法的字错误率(WER),仅用该训练集进行训练,与文献中发现的DNN方法进行比较,这些方法都是用多条件数据[12,21–26]进行训练的,并且在测试期间进行了额外的适配[12]。为了清楚起见,我们通过平均每个测试集中不同噪声类型的WER来呈现WER集合。图2通过在三个snr:10、5和0db上对所有方法(取决于数据的可用性)进一步平均每个测试集中的WER,提供了表1的更紧凑的视图。如表1和图2所示,所提出的方法与最佳dnn具有竞争性,特别是在低SNR下,在极低SNR(-5db)下达到最低的WER,并且在不同的噪声和信道类型下具有良好的泛化能力。结果表明,集A上的许多约束方法在集B上的推广效果很差,当应用于不匹配噪声时,它们的性能有了显著的提高。
在这里插入图片描述

Conclusions

  结果表明,通过直接匹配完整的语音句子,使用ZNCC,可以在不需要噪声训练的情况下显著提高噪声鲁棒性。然而,由于培训数据有限,实施起来很困难。在本文中,我们描述了一种方法-制定作为约束最大化问题的想法,并用迭代维特比算法来解决该问题。我们在Aurora 2及更高版本上对新方法进行了评估,并在对未知不可预测噪声的鲁棒性方面取得了优异的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值