x-vector 基于DNN编码(详细可查看论文 Deep Neural Network Embeddings for Text-Independent Speaker Verification )
框架
##i-vector、d-vector、x-vector
(1)i-vector
i-vector 是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。
i-vector 并不是深度学习的模型,但是可以说是语音界最后一个被深度学习模型打败的模型,在16年左右,其效果比深度学习模型的效果要好。
(2)d-vector
d-vector是14年提出的一个和i-vector效果差不多的深度学习模型(还没有i-vector好)。
它的思想很简单,在训练的时候,就是截取语音中的一小段之后,把这段放到DNN里去训练,最后输出这段话是哪个人说的。训练结束之后,倒数第二层的feature就是我们要的speaker embedding了。
在实际预测的时候,我们的输入语音是不等长的,因此d-vector会把语音截成多段,然后取这几段特征的平均值作为最后