声纹识别的三生三世

0. 什么是声纹识别

通俗的讲,就是给我一句话,判断出这句话是谁讲的。

再细分一下,分为说话人确认(speaker verification)和说话人识别(speaker identification)。

说话人确认:Is this Bob's voice ?

说话人识别: whose voice is this ?

 

 

1. 第一代声纹识别

UBM-MAP方案

step1: 获得通用背景模型(universal background model, UBM):通过大量语音数据依据EM算法基于MLE准则训练得到;

这时候,UBM一般采用GMM建模。

step2: 注册阶段

用几句说话人数据对UBM进行MAP自适应,得到说话人的声纹模型(SPK);

step3:测试阶段

计算P(O|SPK1),..., P(O|SPKn), P(O|UBM), 基于此判断语音O属于哪个说话人。

 

 

2. 第二代声纹识别

i-vector方案

本质上是将说话人语音用一个向量来表征,基于因子分析理论。

3. 第三代声纹识别

深度神经网络方案,目前存在DNN-vector, RNN-vector, CNN-vector三种。

本质上是将神经网络的最后一个隐层输出作为说话人信息表征。

 

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值