使用未经监督的对抗性不变进行强力说话人识别

最新推荐文章于 2024-10-08 19:06:52 发布

落雪snowflake

最新推荐文章于 2024-10-08 19:06:52 发布

阅读量307

点赞数

分类专栏：深度学习声纹识别文章标签：深度学习

原文链接：https://arxiv.org/abs/1911.00940

版权

深度学习声纹识别专栏收录该内容

44 篇文章 76 订阅 ¥19.90 ¥99.00

订阅专栏

研究使用无监督对抗性不变性（UAI）架构改进了在复杂声学条件下的说话人识别。通过训练网络使说话人嵌入仅包含区分信息，同时将其他干扰信息解耦，实验表明提出的嵌入在各种挑战性场景中比x向量表现更好，特别是在噪声和麦克风位置变化的情况下。此外，分析表明，提取的嵌入在说话人聚类和二值化任务中更有效，增强了说话人识别的鲁棒性。

摘要由CSDN通过智能技术生成

ROBUST SPEAKER RECOGN ITION USING UNSUPERVISED ADVERSARIAL INVARIANCE

Raghuveer Peri, Monisankha Pal, Arindam Jati, Krishna Somandepalli, Shrikanth Narayanan
Signal Analysis and Interpretation Laboratory, University of Southern California, Los Angeles, CA, USA

使用未经监督的对抗性不变进行强力扬声器识别

ABSTRACT

在本文中，我们使用一种新颖的方法来提取健壮的说话人-区分性语音表示，从而解决了在具有挑战性的声学条件下的说话人识别问题。我们采用了最近提出的无监督对抗不变性架构来训练一个网络，该网络使用预先训练的模型将说话人嵌入映射到两个较低维的嵌入空间。学习了嵌入空间，以使扬声器区分信息与音频记录中存在的所有其他信息区分开，而无需监视声学条件。我们分析了提出的嵌入对于在大型说话人识别语料库中的说话人验证和无监督聚类任务信号中存在的各种可变性来源的鲁棒性。我们的分析表明，在各种具有挑战性的声学场景中，拟议的系统明显优于基线。此外，对于现实世界会议上的说话人差异化任务，我们的系统显示出与最新基准相比，差异化错误率相对提高了36％。

索引词-对抗不变性，强大的说话人识别能力，说话人二值化

了解本专栏