[论文] End-to-End Text-Dependent Speaker Verification

最新推荐文章于 2021-08-01 15:27:35 发布

擦镜子的小默

最新推荐文章于 2021-08-01 15:27:35 发布

阅读量473

点赞数

分类专栏：说话人识别文章标签：深度学习

本文链接：https://blog.csdn.net/IT_xiao_/article/details/118492232

版权

文章目录Abstract1. Introduction2. Speaker Verification Protocol3. D-Vector Baseline Approach4. End-To-End Speaker Verification5. Experimental Evaluation5.1 Data Sets & Basic Setup5.2 Frame-Level vs. Utterance-Level Representation5.3 Softmax vs. End-to-End

摘要由CSDN通过智能技术生成

Abstract

本文提出了一种数据驱动的、集成的说话人确认方法，**该方法将一个测试话语和几个参考话语直接映射到单个分数进行验证，并使用与测试时相同的评估协议和度量来联合优化系统的组件。**这样的方法将产生简单而高效的系统，几乎不需要特定领域的知识，也不需要做什么模型假设。我们通过将问题描述为一个单一的神经网络体系结构来实现这一想法，包括只在几个话语上估计说话人模型，并在我们内部的“OK Google”基准上进行评估，以进行文本相关的说话人验证。对于像我们这样需要高精度、易维护、占用空间小的系统的大数据应用程序，我们提出的方法似乎非常有效。

1. Introduction

说话人确认是根据说话人的已知话语来验证话语是否属于说话人的过程。当全部用户所说话语的词典（文本内容）被限制为单个单词或短语时，该过程被称为全局密码文本相关的说话人确认。文本相关的说话人确认通过限制词典来补偿语音的可变性，这给说话人确认带来了巨大的挑战。在Google，我们对使用全局密码“OK Google”的文本相关说话人确认感兴趣。选择这个特别短、大约0.6秒长的全局密码与Google Keyword Spotting System和Google VoiceSearch有关，并便于这两个系统的组合。
在本文中，我们提出将一个测试话语与几个话语一起直接映射到单个分数来建立说话人模型，以进行验证。遵循标准的说话人确认协议，使用基于确认的损失对所有组件进行联合优化。与现有的方法相比，这种端到端的方法可能有几个优点，包括从话语直接建模，这允许捕获远程上下文并降低复杂度(每个话语一个帧评估)，以及直接和联合估计，这可以产生更好和更紧凑的模型。此外，这种方法通常导致需要更少概念和启发式的相当简单的系统。

具体地说，本文的贡献包括：·

建立端到端的说话人确认体系结构，包括基于几个话语评估说话人模型(第4节)；
端到端说话人确认的经验评估，包括帧( i-vector、d-vector) 和话语级表示的比较(第5.2节)和端到端损失分析(第5.3节)；
前馈神经网络和递归神经网络的经验比较(第5.4节)。

本文重点研究小样本文本相关的说话人确认，如文**[4]**中所讨论的那样。但是该方法更通用，可以类似地用于与文本无关的说话人确认。

在以前的研究中，确认问题被分解为更容易处理但联系松散的子问题。例如，i-vector和概率线性判别分析(PLDA) [5,6] 的组合已经成为文本无关说话人确认[5,6,7,8]和文本相关说话人确认[9,10,11]的主要方法。包括基于深度学习组件的混合方法也被证明对与文本无关的说话人识别是有益的[12,13,14]。然而，对于占用空间较小的系统，更直接的深度学习建模可能是一个有吸引力的选择[15,4]。据我们所知，递归神经网络已经被应用于说话人辨认[16]和语言识别[17]等相关问题，但还没有应用于说话人确认任务。所提出的神经网络结构可以被认为是一种生成性-判别性混合的联合优化，与深度展开[18]的适应精神是相同的。
论文的其余部分组织如下：第2节概述了说话人验证的一般情况。第3节介绍了d-vector。第4节介绍了所提出的端到端说话人确认方法。第5节进行了实验评价和分析，第6节对论文进行了总结。

2. Speaker Verification Protocol

标准的确认协议可以分为三个阶段：训练、注册和评估，我们将在下面更详细地描述这三个步骤。

训练：在训练阶段，我们从话语中找到合适的内部说话人表示，通过考虑一个简单的评分函数。通常，该表示取决于模型的类型(例如，高斯模型或深度神经网络)、表示级别(例如，帧或话语)以及模型训练损失(例如，最大似然或softmax)。最先进的表示是帧级别信息的汇总，例如 i-vector 和 d-vector。

评估：在评估阶段，执行确认任务并对系统进行评估。为了验证，将话语 X 和测试说话人spk 的打分函数的值 $S (X, s p k)$ 与预设的阈值进行比较。如果分数超过阈值，即话语 X 来自说话人spk，我们接受，否则拒绝。在此设置中，可能会出现两种类型的错误：错误拒绝和错误接受。显然，错误拒绝率和错误接受率取决于阈值。当两个比率相等时，这个值称为等错误率(EER)。
一个简单的评分函数是评价话语 X 的说话人表示 $f (X)$ (见段落“训练”)和说话人模型 $m_{spk}$

最低0.47元/天解锁文章

擦镜子的小默

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文] End-to-End Text-Dependent Speaker Verification

文章目录Abstract1. Introduction2. Speaker Verification Protocol3. D-Vector Baseline Approach4. End-To-End Speaker Verification5. Experimental Evaluation5.1 Data Sets & Basic Setup5.2 Frame-Level vs. Utterance-Level Representation5.3 Softmax vs. End-to-End
复制链接

扫一扫