PLDA本质剖析

1. 为什么会有PLDA,解决了什么问题

上一篇文章讲解了声纹领域开创式进展i-vector方案,该方案为了简化操作,将所有的可变因子视为一个总的变化因子,这估计也是TV系统(total variabililty)称呼的由来,TV系统公式如下,其中w因子既包含说话人因子,又包含信道等其他因子,这样在跨信道或者跨场景情况下效果不佳。PLDA就是为了解决此问题。

2. 什么是PLDA

2.1 基本原理

PLDA有多种,这里讲解比较通用的G-PLDA

TV方案属于无监督方案,PLDA属于有监督方案,需要说话人的标签信息。

PLDA本质上是在TV系统生成的i-vector基础上又做了一次因子分析。

TV系统生成的i-vecotr用D表示,D包含说话人和信道两部分信息,D=S+C   (speaker and channel),这里假设S和C相互独立,且均服从高斯分布。

第i个人第j句话的i-vector记为D_{ij}, 然后PLDA定义

                                                                             D_{ij}=\mu + Fh_{i}+G\omega _{ij} + \epsilon _{ij}

    其中,说话人信息部分为\mu+Fh_i,仅与说话人i相关,描述说话人之间差异;噪声部分为G\omega_{ij}+\epsilon _{ij},描述说话人内部之间差异。

假设各隐变量符合以下分布

                                                                          h_i\sim N(0,I)

                                                                         \omega_{ij}\sim N(0,I)

                                                                         \varepsilon _{ij}\sim N(0,\Sigma )

 

2.2 训练过程

训练集D=\{D_{ij}\},模型参数为\theta =\{\mu,F,G,\Sigma \},采用最大似然估计MLE准则进行优化,即

                                                                        argmax\{P(\theta |D)\}\propto argmax\{P(D|\theta)\}

① 初始化参数\theta

② E-step: 估计隐变量

③ M-step: 依据估计的隐变量更新参数\theta

④ 重复②和③ N次

2.3 测试过程

采用似然比策略进行说话人判别。

假设模型M描述身份因子h和输入特征(i-vector)之间的关系,测试过程即判断ivector x_p是否与注册ivector x_i共享同一身份h 

hypothesis M_0表示 x_i和 x_p来自不同身份隐变量,hypothesis M_1表示 x_i和 x_p来自相同身份隐变量,则似然比计算

score=log\frac{P(x_1,x_p|M_1)}{P(x_1,x_p|M_0)}=logP(x_1,x_p|M_1)-log[P(x_1|M_0)P(x_p|M_0)]

接下来就是如何计算概率了。

 

3. 参考资料

[1] Analysis of I-vector Length Normalization in Speaker Recognition Systems
 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值