PLDA本质剖析

最新推荐文章于 2024-06-20 09:50:45 发布

平凡的兵

最新推荐文章于 2024-06-20 09:50:45 发布

阅读量1.6k

点赞数 1

分类专栏：声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinabing/article/details/83212706

版权

声纹识别专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1. 为什么会有PLDA，解决了什么问题

上一篇文章讲解了声纹领域开创式进展i-vector方案，该方案为了简化操作，将所有的可变因子视为一个总的变化因子，这估计也是TV系统(total variabililty)称呼的由来，TV系统公式如下，其中w因子既包含说话人因子，又包含信道等其他因子，这样在跨信道或者跨场景情况下效果不佳。PLDA就是为了解决此问题。

2. 什么是PLDA

2.1 基本原理

PLDA有多种，这里讲解比较通用的G-PLDA。

TV方案属于无监督方案，PLDA属于有监督方案，需要说话人的标签信息。

PLDA本质上是在TV系统生成的i-vector基础上又做了一次因子分析。

TV系统生成的i-vecotr用D表示，D包含说话人和信道两部分信息，D=S+C (speaker and channel)，这里假设S和C相互独立，且均服从高斯分布。

第i个人第j句话的i-vector记为 $D_{ij}$ , 然后PLDA定义

$D_{ij}=\mu + Fh_{i}+G\omega _{ij} + \epsilon _{ij}$

其中，说话人信息部分为 $\mu+Fh_i$ ，仅与说话人i相关，描述说话人之间差异；噪声部分为 $G\omega_{ij}+\epsilon _{ij}$ ，描述说话人内部之间差异。

假设各隐变量符合以下分布

$h_i\sim N(0,I)$

$\omega_{ij}\sim N(0,I)$

$\varepsilon _{ij}\sim N(0,\Sigma )$

2.2 训练过程

训练集 $D=\{D_{ij}\}$ ，模型参数为 $\theta =\{\mu,F,G,\Sigma \}$ ，采用最大似然估计MLE准则进行优化，即

$argmax\{P(\theta |D)\}\propto argmax\{P(D|\theta)\}$

① 初始化参数 $\theta$

② E-step: 估计隐变量

③ M-step: 依据估计的隐变量更新参数 $\theta$

④ 重复②和③ N次

2.3 测试过程

采用似然比策略进行说话人判别。

假设模型M描述身份因子h和输入特征(i-vector)之间的关系，测试过程即判断ivector x_p 是否与注册ivector x_i 共享同一身份h

hypothesis M_0 表示 x_i 和 x_p 来自不同身份隐变量，hypothesis M_1 表示 x_i 和 x_p 来自相同身份隐变量，则似然比计算

$score=log\frac{P(x_1,x_p|M_1)}{P(x_1,x_p|M_0)}=logP(x_1,x_p|M_1)-log[P(x_1|M_0)P(x_p|M_0)]$

接下来就是如何计算概率了。

3. 参考资料

[1] Analysis of I-vector Length Normalization in Speaker Recognition Systems

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PLDA本质剖析

1. 为什么会有PLDA，解决了什么问题上一篇文章讲解了声纹领域开创式进展i-vector方案，该方案为了简化操作，将所有的可变因子视为一个总的变化因子，这估计也是TV系统(total variabililty)称呼的由来，TV系统公式如下，其中w因子既包含说话人因子，又包含信道等其他因子，这样在跨信道或者跨场景情况下效果不佳。PLDA就是为了解决此问题。2. 什么是PLDA2.1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。