声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型

目录

1. 训练UBM通用背景模型

GMM-UBM

2. 训练与提取ivector

i-vector

DNN-based ivector

d-vector

3. 训练分类器(e.g. PLDA,神经网络)

距离度量:余弦距离

LDA

PLDA:效果略胜于LDA

Triplet Loss

x-vextor 15-16年

VGGVox

Deep speaker(Baidu)

GE2E Loss(Google)

4. 总结

5. 实验建议


1. 训练UBM通用背景模型

UBM模型是一个与说话人、信道无关的高斯混合模型,并且可以作为训练集的统一参考坐标空间,还可以一定程度上解决说话人样本少的问题。

通过EM期望最大化,训练UBM模型,先训练一个协方差对角阵,再训练全矩阵。

GMM-UBM

GMM:均值、方差、权重

UBM:共性特征

2. 训练与提取ivector

i-vector

MAP说话人自适应

m:UBM的均值(已知)

s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)

T:训练得到

w:特定说话人的ivector

一般只更新均值,不更新方差

DNN-based ivector

d-vector

输入之前的30帧和之后的10帧,总共40帧Fbank作为输入,中间通过N层全连接层,激活函数是maxout(可以拟合任何一种凸函数),加dropout(随即关闭一部分神经元使之无效,防止过拟合),d-vector是最后一个隐层的向量

3. 训练分类器(e.g. PLDA,神经网络)

 

距离度量:余弦距离

LDA

PLDA:效果略胜于LDA

Triplet Loss

+当中括号里面是负数是,取0

p=2欧式距离

x-vextor 15-16年

VGGVox

用小卷积核增强建模能力

VGG参数难训练,效果不好

CNN输入必须保证输入是同样大小

Deep speaker(Baidu)

循环神经网络

 

 

Batch上归一化

GE2E Loss(Google)

Sji,j尽可能大(跟自己相比)

4. 总结

5. 实验建议

  • VAD一定要做,通过帧能量(MFCC)给一个下限,只保留有说话的部分
  • 模型融合,多个模型的得分进行融合,e.g. embedding,特征维度上的融合,
  • CNN输入要剪成一样的大小,RNN则不必

 

 

 

  • 9
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr. 卷心菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值