X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION论文翻译

本文介绍了通过数据增强技术提高深度神经网络(DNN)在声纹识别中的表现,尤其是x向量。研究发现,使用噪声和混响等数据增强方法能有效提升DNN嵌入系统的鲁棒性。x向量系统在评估数据集上展现出优越性能,对比i向量系统,x向量在不使用增强时已表现良好,而在增强后性能提升更为显著。
摘要由CSDN通过智能技术生成

X-VECTORS:稳健的DNN嵌入式,用于声纹识别

摘要

 

在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x向量与野外扬声器和NIST SRE 2016 Can-tonese上的i-vector基线进行比较。我们发现虽然增强在PLDA分类器中是有益的,但它在i向量提取器中没有帮助。然而,由于其受过监督的训练,x-vector DNN有效地利用了数据增加。因此,x向量在评估数据集上实现了卓越的性能。

索引术语 - 说话人识别,深度神经网络,数据增强,x向量

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值