声纹识别笔记（二）提取ivector与PLDA流程概述以及最新模型

最新推荐文章于 2024-05-02 16:26:59 发布

Dr. 卷心菜

最新推荐文章于 2024-05-02 16:26:59 发布

阅读量3.6k

点赞数 9

分类专栏： Kaldi学习音频技术文章标签：语音识别神经网络 kaldi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/veritasalice/article/details/89220735

版权

Kaldi学习同时被 2 个专栏收录

14 篇文章 4 订阅

订阅专栏

13 篇文章 33 订阅

订阅专栏

目录

1. 训练UBM通用背景模型

2. 训练与提取ivector

DNN-based ivector

3. 训练分类器（e.g. PLDA，神经网络）

距离度量：余弦距离

PLDA:效果略胜于LDA

x-vextor 15-16年

Deep speaker(Baidu)

GE2E Loss(Google)

5. 实验建议

1. 训练UBM通用背景模型

UBM模型是一个与说话人、信道无关的高斯混合模型，并且可以作为训练集的统一参考坐标空间，还可以一定程度上解决说话人样本少的问题。

通过EM期望最大化，训练UBM模型，先训练一个协方差对角阵，再训练全矩阵。

GMM-UBM

GMM：均值、方差、权重

UBM：共性特征

2. 训练与提取ivector

i-vector

MAP说话人自适应

m：UBM的均值（已知）

s：把UBM针对特定说话人调整成GMM，GMM的均值（通过特征得到）

T：训练得到

w：特定说话人的ivector

一般只更新均值，不更新方差

DNN-based ivector

d-vector

输入之前的30帧和之后的10帧，总共40帧Fbank作为输入，中间通过N层全连接层，激活函数是maxout（可以拟合任何一种凸函数），加dropout（随即关闭一部分神经元使之无效，防止过拟合），d-vector是最后一个隐层的向量

3. 训练分类器（e.g. PLDA，神经网络）

距离度量：余弦距离

LDA

PLDA:效果略胜于LDA

Triplet Loss

+当中括号里面是负数是，取0

p=2欧式距离

x-vextor 15-16年

VGGVox

用小卷积核增强建模能力

VGG参数难训练，效果不好

CNN输入必须保证输入是同样大小

Deep speaker(Baidu)

循环神经网络

Batch上归一化

GE2E Loss(Google)

Sji,j尽可能大（跟自己相比）

4. 总结

5. 实验建议

VAD一定要做，通过帧能量（MFCC）给一个下限，只保留有说话的部分
模型融合，多个模型的得分进行融合，e.g. embedding，特征维度上的融合,
CNN输入要剪成一样的大小，RNN则不必

关注

9
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
0
评论
声纹识别笔记（二）提取ivector与PLDA流程概述以及最新模型

GMM-UBMGMM：均值、方差、权重UBM：共性特征i-vectorMAP说话人自适应m：UBM的均值（已知）s：把UBM针对特定说话人调整成GMM，GMM的均值（通过特征得到）T：训练得到w：特定说话人的ivector一般只更新均值，不更新方差DNN-based ivectord-vector输入之前的30帧和之后的10帧，总共4...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Dr. 卷心菜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。