X-VECTORS:稳健的DNN嵌入式,用于声纹识别
摘要
在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x向量与野外扬声器和NIST SRE 2016 Can-tonese上的i-vector基线进行比较。我们发现虽然增强在PLDA分类器中是有益的,但它在i向量提取器中没有帮助。然而,由于其受过监督的训练,x-vector DNN有效地利用了数据增加。因此,x向量在评估数据集上实现了卓越的性能。
索引术语 - 说话人识别,深度神经网络,数据增强,x向量