kaldi中声纹识别例子大概步骤综述

最新推荐文章于 2022-10-22 23:02:06 发布

落雪snowflake

最新推荐文章于 2022-10-22 23:02:06 发布

阅读量4.8k

点赞数

分类专栏：深度学习声纹识别 KALDI工具文章标签：声纹识别学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38858860/article/details/84346576

版权

深度学习声纹识别同时被 2 个专栏收录

44 篇文章 76 订阅 ¥19.90 ¥99.00

订阅专栏

22 篇文章 6 订阅

订阅专栏

本文介绍了如何使用Kaldi进行说话人识别，包括数据准备、特征提取、VAD、训练GMM-UBM和i-vector系统，以及1:N识别的简单方法。通过sre08、sre10等例子，展示了Kaldi在声纹识别中的应用，并提到了dnn-ubm和d-vector算法。

摘要由CSDN通过智能技术生成

如何利用kaldi搭建说话人识别的例子。仅仅是搭建，具体的很多参数的调整需要大家根据数据集的不同慢慢调整。

数据准备：无论使用kaldi来做语音识别还是说话人识别，第一步就是数据准备，对于说话人识别来说，需要准备的几个文件为wav.scp，utt2spk，spk2utt这三个文件。对应的格式如下：

1.1 wav.scp有两列，第一列是key，这个可以一定要唯一；第二列是 wav的路径wavpath；

1.2 utt2spk也有两列，第一列是key，与wav.scp的第一列一样；第二列是对应的说话人信息，叫spk。这个对于说话人识别来说很重要。此外，spk2utt可以根据utils/utt2spk_to_spk2utt.pl来生成。
特征提取：使用steps/make_mfcc.sh来进行提取mfcc特征。
vad：由于说话人识别里静音会有很大的干扰，所以一般都会进行vad。具体kaldi里也有个简单的根据能量来判断vad的脚本。当然这个越精确越好。
训练阶段：主要训练gmm-ubm跟i-vector系统。

sid/train_diag_ubm.sh；sid/train_full_ubm.sh；train_ivector_extractor.sh
<

了解本专栏

落雪snowflake

关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落雪snowflake 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。