浅谈语音信号处理系列之五语音识别与说话人识别

最新推荐文章于 2024-03-07 08:49:43 发布

Audio_Wang

最新推荐文章于 2024-03-07 08:49:43 发布

阅读量5.5k

点赞数 1

分类专栏： Speech Signal Processing 文章标签：嵌入式开发工具工具工作算法平台

本文链接：https://blog.csdn.net/wanggp_2007/article/details/4729677

版权

本文作者分享了从研究生时期到工作中对语音识别的探索经历，使用HTK工具学习并基于嵌入式平台开发小词汇量、非特定人、孤立词的识别方案。在实际应用中，对比第三方方案认识到技术积累的重要性，并涉足说话人识别，采用GMM和SVM技术。尽管项目最终搁浅，但作者强调语音识别技术的实用价值和学习过程中对数学基础、决心和兴趣的需要。

摘要由CSDN通过智能技术生成

语音识别和说话人识别-短暂的邂逅

本文主要总结了学习语音识别的一段经历...

一初识
上研究生的时候，那时主攻的方向是低码率语音编码技术，但是已经听说语音识别是一个非常了不起的技术，可以想象，如果可以和机器进行无障碍的对话将是一个多么令人兴奋的事情。当时只是埋下了种子，简单的了解了一些名词解释和对Rabiner、李开复与CMU（卡内基梅隆）的钦佩。

二学习
工作了一段时间，公司对语音编码好像可以做的都做了，于是计划将来的发展方向是语音识别，这下确实让我激动了好一阵，主动请求参与这个计划并担当主要开发人员。接下来就是在网上疯狂搜索语音识别相关的学习资料，包括书籍、论文以及源代码。在短短的几天后，明确了我们开发语音识别的方向是非特定人、小词汇量、孤立词的语音识别。毕竟我们基本上是从零开始，许多概念需要理解，许多算法需要明白，许多经验也需要积累。

首先，我们选择了HTK开发工具，这是剑桥提供的一套可以参考学习的语音识别工具。我们选择HTk主要是为了学习语音识别的基本原理和流程。HTk提供的学习资料和源代码还是非常不错的。花了三个月时间，我们学习了基本概念和开发流程，对特征提取、模型匹配、隐马尔科夫模型进行了实验，尤其是隐马尔科夫（HMM）的球与缸（ball and urn）实验很清楚的解释了HMM的概念。接下来的三个月，我们基于自己的嵌入式平台应用，开发了一个用于玩具中的小词汇量，非特定人的、孤立词识别应用方案以及配套的工具，处理语料库是一项非常耗时的工作。

三应用
接下来，我们也找来几家第三方语音识别方案进行比较，从中我们知道了什么叫做技术积累和工程应用，在综合