做语音识别的一些感受!

从一开始接触语音识别,觉得它好神秘啊!到现在也有一年的时间了!现在想想看这一年的时间里都学习到了什么呢?

从一开始就接触到的是语音的上层编码,就是Speech SDK,语音的软件开发包。它是将语音的识别的整个算法都封装起来,留有接口函数,供使用者进行二次开发。下面介绍一下Speech SDk。

IBM推出的Via Vioce语音系统和微软推出的Speech SDK,提供了一个语音识别和合成的二次开发平台,可以识别多种语言,如英文、中文、日文。我们可以利用它们在自己开发的软件里嵌入语音识别和合成功能。 IBM微软等几家公司都提供语音识别和合成的二次开发平台,但只有微软是免费的。微软的识别系统在连续语音识别上的识别率不太高,但在命令控制方式下却很高,可以满足语音控制应用程序的要求。

 微软Speech SDK 5 .1全面支持中文语音应用程序的开发,SDK里提供了语音识别和合成引擎相关组件应用程序层接口祥细的技术资料和帮助文档。它采用COM标准开发,底层协议都以COM组件的形式完全独立于应用程序层,为应用程序设计人员屏蔽掉复杂的语音技术,充分体现了COM的优点,即语音相关的一系列工作由COM组件完成:语音识别由识别引擎( Recognition Engine)管理,语音合成由语音合成引擎( Synthesis Engine)负责;程序员只需专注于自己的应用,调用相关的语音应用程序接口( SAPI)来实现语音功能。

我用过Speech SDK做过一些小的程序,感觉微软的识别效果还可以的,不过识别的一般都是词汇,句子识别还没有尝试过。但是我看过的其它文章中说过IBM的ViaVoice的识别效果比微软的好!用SDK做语音识别的开发就是编程,要看编程序的技巧了,和语音识别是一点关系都没有的!所以用它来做,不能算是语音识别的研究了!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值