声纹识别:x-vector 的特征提取原理

x-vector 基于DNN编码(详细可查看论文 Deep Neural Network Embeddings for Text-Independent Speaker Verification

框架

##i-vector、d-vector、x-vector
(1)i-vector

在这里插入图片描述i-vector 是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。
i-vector 并不是深度学习的模型,但是可以说是语音界最后一个被深度学习模型打败的模型,在16年左右,其效果比深度学习模型的效果要好。

(2)d-vector

在这里插入图片描述d-vector是14年提出的一个和i-vector效果差不多的深度学习模型(还没有i-vector好)。
它的思想很简单,在训练的时候,就是截取语音中的一小段之后,把这段放到DNN里去训练,最后输出这段话是哪个人说的。训练结束之后,倒数第二层的feature就是我们要的speaker embedding了。

在实际预测的时候,我们的输入语音是不等长的,因此d-vector会把语音截成多段,然后取这几段特征的平均值作为最后

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值