微软说话人识别工具箱(MSR Identity Toolbox)应用与实践教程

    微软说话人识别工具箱1 (MSR Identity Toolbox) 是由微软研究院开 源的声纹识别工具,使用 MATLAB 语言编写。主要包含了 GMM-UBM 和 I-Vector 两种声纹识别核心算法源代码以及说明文档,但是并不涉及特征提 取、语音端点检测 (Voice Activity Detection, VAD) 等内容,对于初学者 来说想要使用该工具箱训练自己的模型并建立起完整的声纹识别系统并不 是一件容易的事情。

    本教程并不涉及详细的理论知识推导,以应用实践 为主。其主要目的是 为了学会灵活地使用该工具箱,可以根据自己的实际需求进行模型训练,并 建立一套完整的声纹识别系统 (特征提取-> 模型训练-> 说话人识别-> 模 型评估)。主要包括以下内容:

    1) 语音端点检测 (VAD)

    2) MFCC 特征提取

    3) 基于 GMM-UBM 算法的声纹识别

    4) 基于 I-Vector 算法的声纹识别

    5) 模型性能评估

    6) 小内存 PC 训练大量数据

    为了便于理解,以上所有过程均是利用 Matlab 代码完成。以 MSR Identity Toolbox 的代码为核心,添加了部分其它 Matlab 代码,并对每一 个步骤进行详细地说明。同时,由于 Matlab 语言十分容易理解、操作便捷, 我们可以得到每一步的中间结果 (如 mfcc 特征、ivector 向量等),然后利 用 SVM、神经网络等对中间结果进行分类等操作。

    对于普通的学习者而言,即使弄懂了算法,同时拥有大量数据,但是并 没有服务器,也没有大量内存。因而,想要使用大量数据训练一套性能较好 的算法也是相当困难的。鉴于此,我们将详细介绍如何使用小内存 PC 训练大量数据。

    基于此教程,除了声纹识别以外,还可以建立其它的语音分类应用系统, 如性别识别、哭声检测以及方言种类识别等。

    详细内容请关注知识星球。

声纹识别交流QQ群:875705987

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值