浅谈语音信号处理系列之五 语音识别与说话人识别

本文作者分享了从研究生时期到工作中对语音识别的探索经历,使用HTK工具学习并基于嵌入式平台开发小词汇量、非特定人、孤立词的识别方案。在实际应用中,对比第三方方案认识到技术积累的重要性,并涉足说话人识别,采用GMM和SVM技术。尽管项目最终搁浅,但作者强调语音识别技术的实用价值和学习过程中对数学基础、决心和兴趣的需要。
摘要由CSDN通过智能技术生成

语音识别和说话人识别-短暂的邂逅

本文主要总结了学习语音识别的一段经历...

一 初识
 上研究生的时候,那时主攻的方向是低码率语音编码技术,但是已经听说语音识别是一个非常了不起的技术,可以想象,如果可以和机器进行无障碍的对话将是一个多么令人兴奋的事情。当时只是埋下了种子,简单的了解了一些名词解释和对Rabiner、李开复与CMU(卡内基梅隆)的钦佩。 

 

二 学习
 工作了一段时间,公司对语音编码好像可以做的都做了,于是计划将来的发展方向是语音识别,这下确实让我激动了好一阵,主动请求参与这个计划并担当主要开发人员。接下来就是在网上疯狂搜索语音识别相关的学习资料,包括书籍、论文以及源代码。在短短的几天后,明确了我们开发语音识别的方向是非特定人、小词汇量、孤立词的语音识别。毕竟我们基本上是从零开始,许多概念需要理解,许多算法需要明白,许多经验也需要积累。

 首先,我们选择了HTK开发工具,这是剑桥提供的一套可以参考学习的语音识别工具。我们选择HTk主要是为了学习语音识别的基本原理和流程。HTk提供的学习资料和源代码还是非常不错的。花了三个月时间,我们学习了基本概念和开发流程,对特征提取、模型匹配、隐马尔科夫模型进行了实验,尤其是隐马尔科夫(HMM)的球与缸(ball and urn)实验很清楚的解释了HMM的概念。接下来的三个月,我们基于自己的嵌入式平台应用,开发了一个用于玩具中的小词汇量,非特定人的、孤立词识别应用方案以及配套的工具,处理语料库是一项非常耗时的工作。

 

三 应用
 接下来,我们也找来几家第三方语音识别方案进行比较,从中我们知道了什么叫做技术积累和工程应用,在综合

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值