一.搞了几天,首先说一下X-vector的优势:
1.训练速度非常快
2.无需特定语种的训练集,由于设置一个embedding层进行提取特征直接进行plda打分
3.识别率不错
二.Kaldi中有现成的例子,可供研究
https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2
https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2
上面是kaldi的两个例子
- 根据《X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》