声纹识别的语言依赖前端分析

31 篇文章 0 订阅
本文探讨了在基于深度神经网络(DNN)的声纹识别系统中,语言依赖前端分析的问题。研究发现,使用针对特定语言训练的DNN i-vector系统在非英语环境下,如NIST SRE 2016的Tagalog子集,相比于通用的UBM/GMM i-vector系统,性能有显著提升,实现了12.1%的相对改善。
摘要由CSDN通过智能技术生成

Analysis of Language Dependent Front-End for Speaker Recognition

声纹识别的语言依赖前端分析

摘要

在基于深度神经网络(DNN)i-vector的说话人识别系统中,训练用于自动语音识别的声学模型。基于DNN的声学模型通常使用像英语这样资源充足的语言进行训练。在登记和测试数据不是英语的评估条件下,如在NIST SRE 2016数据集中,DNN声学模型推广得很差。在搜索条件,基于传统的通用背景模型/高斯混合模型(UBM / GMM)我向量提取的性能比基于DNN的i-vector系统更好。在本文中,我们要解决,其中一个可以开发一个自动语音场景识别器具有用于评估条件中存在的语言的有限资源,因此能够使用DNN声学模型而不是UBM / GMM。假设开放训练条件,在NIST SRE 2016数据集的Tagalog子集上进行实验。使用经过Tagalog训练的DNN i-vector系统,通过训练英语的基线系统获得12.1%的相对改善。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值