文献阅读:基于深度神经网络的用于端到端说话人验证的说话人嵌入

论文

论文:DEEP NEURAL NETWORK-BASED SPEAKER EMBEDDINGS FOR END-TO-END SPEAKER VERIFICATION

摘要

  本文研究了一种端到端的文本无关的说话人验证系统。该系统由一个深度神经网络组成,该网络可以接受可变长度的语音片段,并将其映射为一个说话人嵌入。该目标函数区分同说话人对和不同说话人对并在验证过程中重用。最近类似的系统已经显示了对文本相关验证的前景,但是我们认为对文本无关任务是还未被探索的。我们展示了在给出大量的用于训练的说话人的情况下,本文提出的系统性能在EER和MR上胜过了基准i-vector。该系统性能相对于基准系统在测试条件下取得大幅提升。该系统与基准系统的结合取得了更大的提升。

引言

  首先说在以前通常使用i-vector来表示一个说话人然后使用PLDA后端来进行打分。但是在引入DNN之后,这一普遍做法被改变。中间谈了引入DNN后的一些工作。然后提到[1]提出的一种端到端系统,该系统在全局口令文本依赖的任务中胜过了基准i-vector。本文提出系统和前文提到的前馈型DNN类似,但通过一个时间池化层来处理可变长的输入并被开发于对文本无关的验证。本文提出的系统通过话语的统计量来捕获说话者的特征,但这些是在DNN的隐藏池化层计算并在内部使用的。与在[1]中一样,我们建议的系统在测试时验证时使用相同的距离度量进行训练。
  本文的贡献在于提出了一种可从可变长度的语音提取embedding的深度神经网络,并展示了端到端的神经网络在文本无关的任务中的应用前景。

模型结构
概述

模型结构图
  该模型是一种前馈型DNN,从一组堆叠的MFCCs中提取统计量然后将其映射为一个说话人embedding。目标函数作用在embedding对上,最大化来自同一说话人embedding的相同说话人概率,最小化来自不同说话人embedding的不同说话人概率。

特征

  模型特征是20维MFCCs,帧长为25毫秒,在最多3秒的滑动窗口上进行平均标准化。9帧拼接在一起创建一个180维的输入向量。拼接后,使用帧级VAD过滤掉非语音帧。

神经网络结构

  网络结构如图a所示,由4层隐藏层和一层时间池化层组成。池化层随时间聚合前一隐藏层的输出,并计算其平均值和标准偏差。这些统计数据被连接在一起,传播到最后的隐藏层,然后是一个线性输出,产生说话人embedding x。对称矩阵S和偏移量b是独立于输入的常数输出,S和b在如下方程中用于距离度量,该方程是一个PLDA似然值。网络使用的激活函数是[2]所提出的非线性NIN,有关细节参阅[2]。
方程1
  使用如下方程对属于相同说话人和不同说话人的embedding x和y的概率进行建模,该方程是逻辑斯蒂函数。上一个方程定义了两个embedding之间的距离。
方程2
  设Pdiff为不同扬声器对的集合,Psame为同扬声器对的集合。目标函数如下)是每对配对的正确选择的对数概率。由于集合Pdiff中有比Psame中更多的对,我们引入一个常数K,使每个集合在目标函数中具有相同的权值。
方程3

说话人embedding

  虽然可以从任何长度的记录中提取embedding,但我们发现从记忆的角度出发,从30秒的块中提取embedding,并平均得到一个话语级别的表示,是很方便的。如果整个话语少于30秒,就会产生一个单一的embedding。从一个或多个话语中提取登记embedding信息,并取其平均值以建立说话人级表示。如Fig 1.b所示,注册和测试的话语是通过目标函数L(x,y)中使用的距离度量进行评分的。

数据集

在这里插入图片描述

实验
对语音时长的鲁棒性

在这里插入图片描述
  表2前七列上的标签表示测试片段中保留的语音量。最后一列是用于合并结果的。行标签描述了如何配置训练数据。
  对于使用1-20秒块的系统,dnn102k在所有条件下都优于ivec102k,并且在平均EER方面实现了13%的相对提高,在混合EER方面实现了29%的相对提高。由于我们更关注短持续时间的条件,我们在其余的实验中使用1-20秒的适应方法。

训练数据大小

在这里插入图片描述
  对于本文提出的DNN模型,训练数据越大性能(EER)越好,而作为baseline的i-vector系统性能(EER)几乎不随训练数据增大而变化。

系统组合

在这里插入图片描述
  DNN本身表现良好,但由于它和i向量基线之间的显著架构差异,我们预计这些系统是融合的优秀候选。为了融合ivec102k和dnn102k,我们首先使用所有合并得分计算的平均值和方差对得分进行标准化,然后将它们相加。相对于baseline系统i-vector,融合系统取得了较好的性能。

DET曲线

在这里插入图片描述
在这里插入图片描述
  相对于i矢量,DNN在低mr时表现更好,在低FAR时表现更差。图2绘制了15秒测试条件的DET曲线。我们看到ivec102k和dnn102k重叠在2% FAR和20% mr上。基线ivec102k在远低于2%时更好,尽管DNN在其他地方更好。除了极低的远,聚变系统是相同的或更好的个别系统。在长时间测试条件下,图3显示了类似的模式,但在2% FAR和4.5% mr时出现了交叉。这表明对于短时测试条件而言,DNN在更长的工作点集上占主导地位。

总结

  我们发现,本文所提议的架构比baseline系统i-vector平均高出13%,比汇集的EER高出29%。在较短的测试条件下,合并错误率的相对改善较大,DET曲线也较好,这表明基于dnn的embedding可能对持续时间变化更稳健,并且更善于从少量语音中建模说话者特征。
  
  
  
  
  
  
[1]G. Heigold, I. Moreno, S. Bengio, and N. Shazeer, “End-to-end text-dependent speaker verification,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016,pp. 5115–5119.
[2]P. Ghahremani, V. Manohar, D. Povey, and S. Khudanpur, “Acoustic modelling from the signal domain using cnns,” in To appear in Interspeech 2016. IEEE, 2016.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值