Adaptive Decision Fusion for Audio-Visual Speech Recognition(2008)

Adaptive Decision Fusion for Audio-Visual Speech Recognition(2008)

视听语音识别中的自适应决策融合

研究内容

自动语音识别技术其中一个问题是识别性能的噪声鲁棒性;虽然语音识别系统可以在安静的环境下产生较高的识别精度,但在大多数实际应用中,背景噪声的存在往往会显著降低其性能。

近年来,视听语音识别(AVSR)作为解决这一问题的一种方法受到了广泛关注,AVSR将视觉语音信息(即嘴唇运动)与声学语音信息结合起来进行识别。由于视觉信号不受声噪声的影响,它可以作为一个强大的信号源,用于补偿噪声条件下纯声语音识别的性能下降。

图1显示了AVSR的一般过程:首先,通过麦克风和摄像头分别记录声音和视觉信号。然后,从每个信号中提取显著和紧凑的特征。最后,将这两种模式结合起来识别给定的语音。

Fig. 1. 视听语音识别的一般程序

在本章中,我们将重点讨论AVSR如何将这两种模式有效地结合起来,这AVSR抗噪声的一个重要问题。

AVSR的主要挑战是在各种噪声条件下获得等同于或优于任何模态的性能。当噪声水平较低时,声学模态的性能优于视觉模态,因此,视听识别性能应至少与声学语音识别性能相同。当噪声水平较高且视觉识别性能优于声学识别时,集成(视听)识别性能应至少与纯视觉识别性能相同或更好。

此外,我们希望通过使用AVSR系统,这两种模式能够产生协同效应。因此,利用视听信息进行语音识别的第二个挑战的目标是在尽可能高的模式协同作用下提高识别性能。

这两个挑战如图3所示。 (signal to noise ratio(信噪比))

Fig. 3. AVSR的两个挑战。(a) 集成性能至少是在每种噪声水平下表现出更好性能的模态的集成性能(b)集成识别系统显示出协同效应。

一般来说,我们可以将视听信息融合方法分为两大类:特征融合(或早期融合)和决策融合(或后期融合),如图4所示。

在前一种方法中,将两种模式的特征连接起来,形成一个复合特征向量输入分类器进行识别在后一种方法中,每个模态的特征被分别用于识别,然后,两个分类器的输出被组合为最终的识别结果

Fig. 4.整合声和视觉信息的模型。(a)特征融合。(b)决策融合。

在实现抗噪声AVSR系统时,决策融合方法有一些优点。

首先,在决策融合方法中,根据语音的噪声水平,相对容易采用自适应加权方案来控制两种模式对最终识别的贡献,这是因为声音和视觉信号是独立处理的。这种自适应方案有助于实现了AVSR的主要目标,即通过有效地利用模态的互补性,在各种噪声条件下识别的噪声鲁棒性。

  • 决策融合允许对两个信息流的时间相关性进行灵活建模,而特征融合假设声学和视觉特征序列之间完全同步。众所周知,语音和视觉语音之间存在一种异步特征:嘴唇和舌头有时会在语音信号发出前几百毫秒开始移动。
  • 虽然构建基于特征融合的AVSR系统需要训练一个全新的识别器,但利用现有的单峰系统可以组织一个基于决策融合的识别器。

提出的方法&模型架构

基于自适应加权方案的决策融合

声学和视觉语音识别的主要范式是隐马尔可夫模型(HMM)(Rabiner,1989)。我们训练隐马尔可夫模型来构建一个语音类的听觉或视觉表达模型。并且,所有语音类的HMM集合构成了一个语音分类器。在基于HMM的AVSR系统中,决策融合是通过利用给定视听语音数据的声学和视觉HMM的输出来实现的。

重要的问题是如何实现自适应决策融合,以获得在各种噪声环境下的噪声鲁棒性。为了解决这个问题,有必要定义模态的相对可靠性度量(受噪声级影响),并根据测量的可靠性确定适当的权重。

在本节中,我们将介绍自适应加权的原理、可靠性度量的各种定义,以及根据可靠性获得适当集成权重的基于神经网络的方法。

自适应加权

决策融合中的自适应加权按以下方式执行:当获得未知类别的给定视听语音数据的声学和视觉特征 (OA and OV) 时,可识别的话语类别C*由(Rogozan&Deléglise,1998)给出

集成权重γ决定了最终决策在多大程度上取决于每种模式。它的值介于0和1之间,并根据声学语音中包含的噪声量而变化。当声学语音干净时,权重应该很大,因为干净声学语音的识别效果通常优于视觉语音;另一方面,当声学语音包含很多噪声时,权重应该足够小。

因此,对于各种噪声条件下的噪声鲁棒识别性能,根据给定语音信号的噪声条件自动确定适当的权重值是非常重要的。

可靠性措施(测量) 

每个模态的可靠性可以通过相应HMM的输出进行测量。当声学语音不含任何噪声时,声学HMM的输出之间存在很大差异。当声学语音包含噪声时,差异变得很小,这反映了噪声导致识别模糊度的增加。这一现象如图5所示,图5显示了当呈现干净或噪声条件下的语音数据时,HMM对所有话语类别的输出(对数概率)。

Fig. 5. 不同噪声水平下的HMMs的输出。

考虑到这一观察结果,我们可以用多种方式定义一种模式的可靠性

•对数概率的平均绝对差异(AbsDiff):

•对数可能性(Var)的变化:

•对数可能性与最大值的平均差异(DiffMax):

•后验概率逆熵(InvEnt):

实验部分将比较AVSR中上述措施的性能。

神经网络融合

神经网络对两个可靠性集成权重之间的输入-输出映射进行建模,以估计最佳集成权重,如图6所示,即

式中,f是由神经网络建模的函数,γˆ是给定声学和视觉可靠性(分别为SA and SV)的估计集成权重。神经网络的普遍逼近定理表明,如果前馈神经网络的隐藏神经元数量不受限制,则它可以对任何具有期望误差界的任意函数进行建模。

Fig. 6. 用于估计集成权值的神经网络。

在将神经网络用作集成权重的估计器之前,应先对其进行训练。使用,被白噪声污染的干净、20dB、10dB和0dB噪声语音数据用于训练。然后,神经网络根据其泛化能力为训练过程中未考虑的噪声条件生成适当的权重。

训练按如下方式进行:

首先,我们使用可靠性度量之一,计算每个训练数据的每个模态的可靠性。

然后,我们详尽地获得了正确识别数据的集成权重;在将权重从0增加到1的同时,我们测试使用权重值的识别结果是否正确。

最后,利用两种模式的可靠性和找到的权重作为训练输入和目标对,对神经网络进行训练。

正确识别的集成权重显示为一个区间,而不是一个特定值。图7显示了一个例子。可以观察到,对于较大的信噪比,较大的权重区间产生正确的识别,并且随着信噪比变小,区间变小。

Fig. 7.集成权重产生正确识别的间隔。

因此,神经网络训练输入向量的期望目标由一个区间给出。为了在训练中解决这个问题,神经网络训练算法中使用的原始误差函数

前提知识(可选)

人类的语言产生过程本质上是双峰的:舌头、下巴、牙齿和嘴唇的形状决定了产生哪种特定的声音。许多这样的发音动作都是可见的。面对面的对话中,我们倾听别人的话,同时观察他们的嘴唇动作、面部表情和手势。特别是,如果我们在听的过程中遇到环境噪音的问题,视觉信息对语言理解起着重要作用。即使在干净的环境下,当说话的人脸可见时,语音识别性能也会提高。众所周知,听力受损的人通常具有良好的唇读技能。研究表明,许多在声学上容易混淆的音素很容易通过视觉信息(例如,/b/和/g/)来区分心理学实验表明,与只听声音的情况相比,看到说话者的嘴唇可以通过降低语音的听觉检测阈值来增强在噪声中检测语音的能力

尽管如上所示,语音感知的双峰性已得到广泛证明,但其机制尚未得到明确理解,因为它需要对感官信号处理、高级信息处理、语言感知、记忆等机制进行广泛而深入的心理和生物学理解。

数据集

我们使用两个独立的单词数据库进行实验: the DIGIT database and the CITY database 。the DIGIT database包含11个韩语数字,the CITY database包含16个著名的韩国城市名称。在这两个数据库中,56名发言者将每个单词发音三次。当说话者发单词时,摄像机和麦克风分别同时记录说话者嘴边的面部区域和语音信号。声学语音以32 kHz的频率记录,并降采样至16 kHz进行特征提取。演讲者的嘴唇运动被记录为一张720x480像素的运动图像,频率为30赫兹。

识别实验是以独立于说话人的方式进行的。为了提高实验的可靠性,我们采用了刀切法;将56名发言者的数据分为四组,我们使用三组(42名发言者)的数据进行训练,并使用剩余组(14名发言者)的数据进行测试。

为了模拟各种噪声条件,我们使用NOISEX-92数据库的四个噪声源:白噪声(WHT)、F-16驾驶舱噪声(F16)、工厂噪声(FAC)和手术室噪声(OPS)。我们将每个噪声加入到干净的声学语音中,以获得各种SNR的噪声语音。

结果

可靠度指标的比较

首先,我们比较给出的可靠性度量。Levenberg-Marquardt算法是神经网络中最快的训练算法之一,用于训练网络。

Fig. 10. the DIGIT database可靠度指标的比较. (a) WHT. (b) F16. (c) FAC. (d) OPR.

Fig. 11. the CITY database 可靠度指标的比较. (a) WHT. (b) F16. (c) FAC. (d) OPR.

图10和图11分别比较了每个数据库的可靠性度量。据观察,DiffMax在整体意义上表现出最好的识别性能。

单峰和双峰识别性能

图12和图13分别比较了两个数据库中仅声学、仅视觉和集成识别的错误率。从结果中,我们可以观察到以下几点:

1.纯声识别对干净语音的识别率接近100%,但由于语音含有更多噪声,其性能显著降低;对于某些噪声,0dB时的错误率甚至高于70%。

2.对于每个数据库,仅视觉识别的错误率分别为36.1%和22.0%,无论噪声条件如何,错误率都保持不变。这些值大于干净语音的纯声识别性能,但小于含噪语音的识别性能。

3.集成系统的性能至少与单峰系统相似或更好。尤其是在5dB~15dB时,协同效应显著。与仅声学识别相比,双峰识别对每个数据库的错误率的相对降低平均分别为39.4%和60.4%。在高噪声条件下(即0dB~10dB),每个数据库的错误率相对降低分别为48.4%和66.9%,表明识别的噪声鲁棒性得到了实现。

4.神经网络成功地适用于未经训练的噪声条件。为了训练神经网络,我们只使用干净的语音和被白噪声污染的20dB、10dB和0dB噪声语音。然而,对于同一噪声源的其他噪声级和其他三个噪声源的噪声条件,集成是成功的。

Fig. 12.the DIGIT database的单峰和双峰系统错误率(%)的识别性能. (a) WHT. (b) F16. (c) FAC. (d) OPR. 

Fig. 13. the CITY database单峰和双峰系统的错误率(%)的识别性能. (a) WHT. (b) F16. (c) FAC. (d) OPR.

图14显示了神经网络相对于数字数据库SNR确定的集成权重值(平均值和标准偏差)。据观察,自动确定的权重值在高SNR时较大,而在低SNR时较小,正如预期的那样。

总结

对视听语音识别(AVSR)进行分析,提出挑战,和目前最常用的两个模型,对其中一个模型进行展开讲解。做了对比实验。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值