文本无关说话人确认的深度神经网络嵌入

文本无关说话人确认的深度神经网络嵌入

论文:Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

论文的作者提出了 X-Vector,,X-Vector 可以查看该博文

摘要

在说话人无关的说话人确认系统中,可以通过神经网络的时间池化层(Temporal Pooling Layer)来聚合说话人语音,以捕获长期的的说话人特征,从而实现长度变化的语音转化为固定维度的说话人嵌入。D. Snyder 提出了一种新的前端-后端说话人确认框架,其中前端模型采用深度神经网络(Deep Neural Network, DNN)提取说话人嵌入,后端模型采用概率判别分析对注册语音和测试语音进行评分计算。该方法在 NIST SRE 2010 英文语料与 2016 Cantonese 与 Tagalog 非英文语料上评测短时、语音不匹配的系统性能。结果表明:1)1)DNN 嵌入与 i-vector 相当,2)两种向量的得分融合互补,3)DNN 嵌入在短时语音上更优,4)DNN 对语音不匹配更鲁棒。

方法

论文中提及了两种说话人确认的系统:i-vector 系统与 DNN 嵌入系统:

  1. i-vector 系统
    • 模型:输入(60-d) ↦ \mapsto UBM(2048-c)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值