小白声纹识别(说话人识别)探索


序言:作为一名完全的声纹识别小白,刚开始接触,毫无头绪,都不知道从何入手,在搜集了一些资料,看过一些学习视频,论文之后,记录一下自己的摸索过程,同时将一些目前网络上的资源进行汇总。目前的我确实学习还是非常浅,如果有一些理解错误,会进行改正。


一、算法纵览

搞懂声纹识别算法整个的发展过程,才有利于进一步改进。了解了各种方法,才能选出最适合数据的算法。看论文时也会减轻很多压力。所以首先记录一下我了解的一些算法发展流程:

1. 最早的GMM-UBM i-vector

利用GMM高斯混合模型提取特征i-vector;克服训练数据不多的情况,引入UBM;将语音分为说话人空间和环境空间,解决环境带来的信道,PLDA实现信道补偿,将提取的i-vector更加纯粹。

当然,获取i-vector的方法不仅仅局限在高斯混合模型,利用一起其它的机器学习方法进行补充一样可以,甚至是DNN提取的特征。

2. DNN入场

DNN的引入极大的降低了识别错误率。这时候的算法,可以称为embedding算法,依然是提取特征,不过这时候提取的是神经网络最后隐藏层的激活单元了,作为embedding,代替i-vector来作为一段语音的特征表示。

这时候出现了d-vector(深度神经网络最后一个隐藏层作为embeddings特征)、x-vector(从TDNN网络中提取embeddings特征)、j-vector模型(适用于文本相关说话人确认)

3.

  • 21
    点赞
  • 155
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值