做语音识别的一些感受！

最新推荐文章于 2023-04-04 16:56:58 发布

banian_2005

最新推荐文章于 2023-04-04 16:56:58 发布

阅读量3.6k

点赞数

文章标签：微软 ibm 引擎编程平台算法

本文链接：https://blog.csdn.net/banian_2005/article/details/355083

版权

从一开始接触语音识别，觉得它好神秘啊！到现在也有一年的时间了！现在想想看这一年的时间里都学习到了什么呢？

从一开始就接触到的是语音的上层编码，就是Speech SDK，语音的软件开发包。它是将语音的识别的整个算法都封装起来，留有接口函数，供使用者进行二次开发。下面介绍一下Speech SDk。

IBM推出的Via Vioce语音系统和微软推出的Speech SDK，提供了一个语音识别和合成的二次开发平台，可以识别多种语言，如英文、中文、日文。我们可以利用它们在自己开发的软件里嵌入语音识别和合成功能。 IBM微软等几家公司都提供语音识别和合成的二次开发平台，但只有微软是免费的。微软的识别系统在连续语音识别上的识别率不太高，但在命令控制方式下却很高，可以满足语音控制应用程序的要求。

微软Speech SDK 5 .1全面支持中文语音应用程序的开发，SDK里提供了语音识别和合成引擎相关组件应用程序层接口祥细的技术资料和帮助文档。它采用COM标准开发，底层协议都以COM组件的形式完全独立于应用程序层，为应用程序设计人员屏蔽掉复杂的语音技术，充分体现了COM的优点，即语音相关的一系列工作由COM组件完成:语音识别由识别引擎( Recognition Engine)管理，语音合成由语音合成引擎( Synthesis Engine)负责;程序员只需专注于自己的应用，调用相关的语音应用程序接口( SAPI)来实现语音功能。

我用过Speech SDK做过一些小的程序，感觉微软的识别效果还可以的，不过识别的一般都是词汇，句子识别还没有尝试过。但是我看过的其它文章中说过IBM的ViaVoice的识别效果比微软的好！用SDK做语音识别的开发就是编程，要看编程序的技巧了，和语音识别是一点关系都没有的！所以用它来做，不能算是语音识别的研究了！