声纹识别的三生三世

最新推荐文章于 2024-07-18 15:49:56 发布

平凡的兵

最新推荐文章于 2024-07-18 15:49:56 发布

阅读量1k

点赞数 1

分类专栏：声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinabing/article/details/80376307

版权

声纹识别专栏收录该内容

3 篇文章 1 订阅

订阅专栏

0. 什么是声纹识别

通俗的讲，就是给我一句话，判断出这句话是谁讲的。

再细分一下，分为说话人确认(speaker verification)和说话人识别(speaker identification)。

说话人确认：Is this Bob's voice ?

说话人识别: whose voice is this ?

1. 第一代声纹识别

UBM-MAP方案

step1: 获得通用背景模型(universal background model, UBM)：通过大量语音数据依据EM算法基于MLE准则训练得到;

这时候，UBM一般采用GMM建模。

step2: 注册阶段

用几句说话人数据对UBM进行MAP自适应，得到说话人的声纹模型（SPK);

step3：测试阶段

计算P(O|SPK1)，..., P(O|SPKn), P(O|UBM)，基于此判断语音O属于哪个说话人。

2. 第二代声纹识别

i-vector方案

本质上是将说话人语音用一个向量来表征，基于因子分析理论。

3. 第三代声纹识别

深度神经网络方案，目前存在DNN-vector, RNN-vector, CNN-vector三种。

本质上是将神经网络的最后一个隐层输出作为说话人信息表征。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。