用于说话人验证的非线性i-vectors的研究

An Investigation of Non-linear i-vectors for speaker verification

文章地址https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2474.pdf

陈南新,Jesu的Villalba,Najim Dehak

语言和语音处理中心约翰霍普金斯大学,马里兰州巴尔的摩

{bobchennan,jvillal7,ndehak3} @ jhu.edu

摘要

由于语音助理和智能家居的普及,说话者验证变得越来越重要。 i-vector广泛用于该主题,其使用因子分析来模拟高斯混合模型中的平均参数的偏移。最近深度学习的进展,高水平的非线性改善了许多领域的成果。在本文中,我们提出了一个新的i-vector框架,它使用随机梯度下降来解决i-vector问题。根据我们的初步结果,随机梯度下降可以获得与期望最大化算法相同的性能。然而,通过反向传播,假设可以更灵活,因此在我们的框架中可以进行线性和非线性假设。根据我们的结果,最大后验估计和最大似然导致比传统i-vector略好的结果,并且线性和非线性系统具有相似的性能。

索引术语:说话人验证,生成模型,随机梯度下降

1.简介

随着智能手机和家庭用户的日益普及,语音相关技术越来越受到学术界和业界的关注。 虽然语音识别性能不断提高,但现在人们开始更多地关注隐私问题。 鉴于个人信息通常与这些硬件共享,一个自然的问题是我们如何使其安全。 说话者验证成为一种自然选择,并在许多家庭助理中变得普遍。 扬声器验证系统根据其生理特征区分不同的扬声器,并回复相应的用户。

演讲者验证研究历史悠久。从20世纪开始,高斯混合模型通用背景模型(GMM-UBM)在[1]中被提出,实现了很好的性能。 UBM模型在大型语料库上进行训练,以模拟说话者独立的语音特征分布。然后,使用Maximum a posteriori使GMM参数适应任何特定的说话者。后来,联合因子分析(JFA)[2,3]提高了GMM-UBM系统的性能。 JFA假设说话者变异空间之间和之内的排名较低。虽然JFA假设频道和发言人的因素不同,但以下研究表明,即使是频道因素也有与发言人相关的信息,可以提高整体表现。 2011年,Dehak等人。 [4]提出了一个简化的框架,广义上称为i-vector,使用由总变差矩阵定义的单因子。总变异系数(i-vector)的点估计被用作其他分类器的新特征,例如,概率线性判别分析(PLDA)[5]用于做出相同/不同的说话者决策[6,7] ]

最近,随着深度学习技术的出现,更多的研究[8,9,10,11,12,13,14,15,16]转而使用神经网络来模拟说话者的变异性。在[8,9]中,神经网络用于取代GMM-UBM模型中的GMM,以提供对齐和统计。在[11]中,从神经网络中提取瓶颈特征,使GMM得到更好的无监督聚类特征空间改善结果。后来,提出了不同的工作来直接使用神经网络进行说话人验证[10,12,13,14,15,16]。这些网络需要接受大量数据的培训,通常使用监督学习,并且在文本相关[10,12,13,14,15]和文本无关[16]说话者验证方面表现出很好的表现。

在本文中,我们提出了一个将传统i-vector与神经网络相结合的新框架。更具体地,提出了推广i-vector的生成模型,并且我们证明了i-vector是我们新框架的特例。基于反向传播的随机梯度下降用于训练模型参数并推断潜在因子。在这个新框架中表示i-vector时,我们可以为i-vector添加非线性。我们对SRE16的初步结果表明

•最小分歧估计有助于推理

•线性和非线性系统的性能类似

•最大后验和最大似然都可以略微改善常规i-vector的结果

本文的结构如下。第2节介绍了传统的i-vector系统和提出的新的i-vector框架。第3节报告了i-vector基线系统的结果,并探讨了不同的因素:最小偏差估计,非线性,最大似然估计和最大后验估计。第4节总结了论文并为未来的研究提供了指导。

2.i-vector和非线性i-vector

2.1.i-vectors

i-vector框架将话语特征建模为高斯混合模型(GMM)。 话语依赖GMM超向量的转换意味着w.r.t. 假设通用背景模型是

m = M + Tw(1)

其中M是原始UBM平均值,T是低维矩阵映射到高维超矢量空间的低维i-vector。 超向量是所有平均参数的串联。 T通常称为总可变性矩阵。

期望最大化用于训练UBM和i-vector模型参数。 在将i-vector提取为固定维度嵌入之后,可以使用余弦相似性和概率线性判别分析[5]。

2.2.非线性i-vector

2.2.1.Model定义

在这个工作中,就像在i-vector框架中一样,我们假设话语特征是由GMM生成的,

其中xij是来自话语i的帧j,zij是高斯职业的单热矢量,并且φ是混合权重。 tt是将潜在因子w映射到话语依赖的超向量均值和UBM均值之间的偏移的一般函数。

常规的i-vector可以被认为是

这是等式(2)的特例。 但是,在这项工作中,我们尝试向函数tt添加非线性。 一个自然的想法是直接将激活函数添加到Tθ和w的乘积:

2.2.2.Theory

提出的框架背后的理论可以更一般。 我们想要模拟观察到的变量之间的连接X-给定话语的特征帧和潜在变量w。 在生成环境中,我们希望在给定模型参数θ,log p(Xθ)的情况下最大化观测数据X的边际可能性。 然而在实践中,这在大多数情况下是难以处理的。 因此,我们最大化了下限(ELBO),而不是

在我们的例子中,我们关心如何找到最佳μ。由于X包含可变数量的帧,所以我们需要设计某种复杂的机制来将所有帧的信息累积到唯一的潜在因子w中,因此模拟潜在的后p(w X)是困难的。然而,类似于稀疏编码,我们将其视为优化问题,这简化了问题。我们提出假设μ是我们通过反向传播获得的可训练参数,而不是使用闭合形式函数来获得μ,如在变分自动编码器框架[18]中提出的那样。以这种方式,不需要编码器功能,只需要解码器分配p(X w)。采用GMM-UBM作为解码器以与i-vector进行比较。相同的UBM在相同的数据集上进行训练,并用于i-vector和我们的方法。

整个过程的图表如图1所示。在每个小批量中,我们根据UBM模型计算每个高斯分布的响应。然后根据小批量中的数据X收集所有嵌入,并通过函数tt更新UBM的超级向量。损失值由数据X和更新的UBM计算。在向后,从损失值开始,通过递归计算θ和w的梯度。在每个小批量中,我们在这个小批量中更新了θ和相应的w。在推理(i-vector提取)中,仅更新μ而θ固定。

虽然我们的方法是基于小批量的训练,但我们想强调EM算法和SGD之间的相似之处。 SGD一般可以看作是EM的一个特例。在每个小批量中,我们优化w在前一批中给定θ,并且我们优化θ给出最后w。即使每个小批量也无法提供准确的梯度信息,并且步长相对较小,如果有足够的更新,系统应该收敛到类似的点。

2.2.3.损失功能

在这项工作中,我们根据公式(8)考虑两个损失函数:

总共有41859个话语。 表1列出了更多数据细节。

所有框架均在NIST SRE 2016评估(SRE16)的粤语部分进行测试。 入学话语包含大约60秒的会话电话讲话,而测试话语在10-60秒之间变化。 我们从NIST SRE16开发集“主要”数据中估计了i-vector的平均值,并使用它来集中所有i-vector以用于登记和测试数据。

3.2Experiments setup

在整个训练集上训练UBM模型,并且在所有实验中使用对角协方差。 使用Kaldi训练UBM模型和i-载体基线[21]。

使用MAP估计的不同对角高斯数的400维i-向量基线的结果在表2中给出。从表中可以看出,更高斯的人得到更好的结果,但差异并不大。 由于GPU内存限制,我们使用256高斯UBM来测试我们的方法。

在下文中,我们将介绍用于创建我们在随机反向传播算法中使用的小批量的方法。由于独立性假设,我们可以在不改变模型的情况下改变每个话语中的帧。通过改组框架,我们增加了用于训练模型的特征块的可变性。众所周知,增加随机性有利于使深度模型很好地推广。之后,我们将每个话语分成小块,其中每个块包括128帧。在将它们喂入我们的模型之前,所有这些块都在每个时代进行了洗牌。每个小批量包含200个块。根据我们的观察,每个小批量的块大小和块数都对最终性能非常重要。第一个决定w的精确梯度,第二个决定小批量的会话间可变性。在训练中,学习率设定为0.001,并使用Adam [22]。对于推理,学习率设置为0.005,并且使用10次迭代来找到最优w。为了公平比较,我们还将w设置为400维嵌入。对于i-vector和非线性i-vector,采用概率线性判别分析(PLDA)作为后端。

 

3.3.结果

3.3.1.最小分歧估计的影响

如2.2.3节所述,最小偏差估计用于减少Tθ尺度与w方差之间不平衡的影响。 结果列于表3中。

显然,从表中最小分歧估计是有帮助的,甚至学习率可以手动设置为非常小的数字(如表中的0.0005),最小分歧估计仍然可以改善结果。 这与我们从标准i-vector实践中所知道的一致。

 

3.3.2.线性与非线性的比较

对于非线性,参数整流线性单元[23]被采用为等式(4)中的函数g:

3.3.3.最大似然估计估计(MLE)和最大后验(MAP)估计之间的比较

MLE和MAP估计之间的唯一区别是等式(8)中的先验的权重。 表5报告了MLE和MAP的结果。 从表中可以明显看出,MAP估计具有与ML估计相似的性能。 然而,随着先前项p(w =μ)的引入,w更接近标准正态分布,这减少了最小偏差估计的相对改进。 我们进一步绘制了MLE和MAP训练中随机选择维度的分布图,如图2所示。与MLE相比,图中w往往与MAP中的标准法线具有相似的分布。 总而言之,最大似然估计提供了更好的决策成本函数(DCF),而最大后验估计导致更好的相等错误率(ERR)。

4.结论

在本文中,我们提出了一种新的基于随机的非线性i-vector系统。所提出的模型遵循UBM方法,与i-vector相同。然而,它推广了i-vector,允许使用非线性函数将潜在因子(i-向量)映射到依赖于话语的GMM超向量均值。在这种模型中,估计潜在因子或模型参数是难以处理的。然而,我们可以采用在变分自动编码器中使用的类似方法[18],其中模型参数通过随机反向传播获得,潜在因子由深度神经网络计算。在我们的框架中,我们建议使用随机反向传播来计算潜在因子和模型参数。在训练阶段,模型参数和潜在因素进行了估计。同时在评估阶段 - 当获得注册和测试i-vector时 - 模型参数是固定的。

我们使用线性和非线性解码器对此框架进行了实验,以计算GMM平均值。我们在SRE16上的实验表明,我们的MLE和MAP训练框架比传统的i-vector导致略好的结果。然而,非线性假设并没有真正改善结果。进一步的工作包括通过允许每个维度的不同非线性来扩展非线性,以及同时调整不同的参数。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MSR Identity Toolbox: A Matlab Toolbox for Speaker Recognition Research Version 1.0 Seyed Omid Sadjadi, Malcolm Slaney, and Larry Heck Microsoft Research, Conversational Systems Research Center (CSRC) s.omid.sadjadi@gmail.com, {mslaney,larry.heck}@microsoft.com This report serves as a user manual for the tools available in the Microsoft Research (MSR) Identity Toolbox. This toolbox contains a collection of Matlab tools and routines that can be used for research and development in speaker recognition. It provides researchers with a test bed for developing new front-end and back-end techniques, allowing replicable evaluation of new advancements. It will also help newcomers in the field by lowering the “barrier to entry”, enabling them to quickly build baseline systems for their experiments. Although the focus of this toolbox is on speaker recognition, it can also be used for other speech related applications such as language, dialect and accent identification. In recent years, the design of robust and effective speaker recognition algorithms has attracted significant research effort from academic and commercial institutions. Speaker recognition has evolved substantially over the past 40 years; from discrete vector quantization (VQ) based systems to adapted Gaussian mixture model (GMM) solutions, and more recently to factor analysis based Eigenvoice (i-vector) frameworks. The Identity Toolbox provides tools that implement both the conventional GMM-UBM and state-of-the-art i-vector based speaker recognition strategies. A speaker recognition system includes two primary components: a front-end and a back-end. The front-end transforms acoustic waveforms into more compact and less redundant representations called acoustic features. Cepstral features are most often used for speaker recognition. It is practical to only retain the high signal-to-noise ratio (SNR) regions of the waveform, therefore there is also a need for a speech activity detector (SAD) in the fr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值