使用未经监督的对抗性不变进行强力说话人识别

44 篇文章 76 订阅 ¥19.90 ¥99.00
研究使用无监督对抗性不变性(UAI)架构改进了在复杂声学条件下的说话人识别。通过训练网络使说话人嵌入仅包含区分信息,同时将其他干扰信息解耦,实验表明提出的嵌入在各种挑战性场景中比x向量表现更好,特别是在噪声和麦克风位置变化的情况下。此外,分析表明,提取的嵌入在说话人聚类和二值化任务中更有效,增强了说话人识别的鲁棒性。
摘要由CSDN通过智能技术生成

ROBUST SPEAKER RECOGN ITION USING UNSUPERVISED ADVERSARIAL INVARIANCE

Raghuveer Peri, Monisankha Pal, Arindam Jati, Krishna Somandepalli, Shrikanth Narayanan
Signal Analysis and Interpretation Laboratory, University of Southern California, Los Angeles, CA, USA

 

使用未经监督的对抗性不变进行强力扬声器识别

ABSTRACT

        在本文中,我们使用一种新颖的方法来提取健壮的说话人-区分性语音表示,从而解决了在具有挑战性的声学条件下的说话人识别问题。我们采用了最近提出的无监督对抗不变性架构来训练一个网络,该网络使用预先训练的模型将说话人嵌入映射到两个较低维的嵌入空间。学习了嵌入空间,以使扬声器区分信息与音频记录中存在的所有其他信息区分开,而无需监视声学条件。我们分析了提出的嵌入对于在大型说话人识别语料库中的说话人验证和无监督聚类任务信号中存在的各种可变性来源的鲁棒性。我们的分析表明,在各种具有挑战性的声学场景中,拟议的系统明显优于基线。此外,对于现实世界会议上的说话人差异化任务,我们的系统显示出与最新基准相比,差异化错误率相对提高了36%。

索引词-对抗不变性,强大的说话人识别能力,说话人二值化

1.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值