Analysis of Language Dependent Front-End for Speaker Recognition
声纹识别的语言依赖前端分析
摘要
在基于深度神经网络(DNN)i-vector的说话人识别系统中,训练用于自动语音识别的声学模型。基于DNN的声学模型通常使用像英语这样资源充足的语言进行训练。在登记和测试数据不是英语的评估条件下,如在NIST SRE 2016数据集中,DNN声学模型推广得很差。在搜索条件,基于传统的通用背景模型/高斯混合模型(UBM / GMM)我向量提取的性能比基于DNN的i-vector系统更好。在本文中,我们要解决,其中一个可以开发一个自动语音场景识别器具有用于评估条件中存在的语言的有限资源,因此能够使用DNN声学模型而不是UBM / GMM。假设开放训练条件,在NIST SRE 2016数据集的Tagalog子集上进行实验。使用经过Tagalog训练的DNN i-vector系统,通过训练英语的基线系统获得12.1%的相对改善。