多角度了解科大讯飞公司之一(语音识别)

本文回顾了语音识别技术的历史,从隐马尔可夫模型到深度神经网络的发展,强调了大数据和涟漪效应的作用。科大讯飞作为国内首个在商用系统中使用深度神经网络的公司,紧跟技术潮流,利用互联网思维和统计决策系统提升语音识别性能。文章探讨了语音识别在不同场景下的应用,指出全双工、多轮对话和纠错等技术的重要性,并强调科大讯飞致力于通过技术创新实现人工智能的目标。
摘要由CSDN通过智能技术生成

以下各篇文章,主要是参考阅读了巨潮信息网上关于最近2年公司接待机构投资者的文字记录,以及参考阅读媒体采访公司高层领导的公开报道……

前言:语音识别与人工智能的发展路线图

(注:摘自于机器之心2015.9对胡郁的采访报道)

一、语音识别技术的历史

1)语音识别技术的起源和隐马尔可夫模型

自出现电子计算机后,最早的语音识别系统起源于贝尔实验室(编者注:贝尔实验室开发的Audrey,它能够识别10个英文数字,这是最早的机遇电子计算机的语音识别系统),之后从50年代到90年代,语音识别领域又出现了几个分支,包括IBM、卡耐基梅隆大学和剑桥大学,这几个机构和贝尔实验室拥有在语音识别领域的绝对统治权。语音识别领域被隐马尔可夫模型统治了很长时间。

隐马尔可夫模型

隐马尔可夫模型是用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。该模型最初是在20世纪60年代后半期Leonard

E. Baum和其它一些作者在一系列的统计学论文中描述的,最初的应用之一是开始于20世纪70年代中期的语音识别。

关于语音识别,前三十年一直有人在做理论论证的东西,毕业于卡耐基梅隆大学的James K.

Baker起先在IBM Continuous Speech Recognition Group做研究,后来创办了Dragon

Systems,他是世界上第一个把隐马尔可夫模型用于语音识别的人,而且还做到了可以用。后来他的公司不是很成功,但他是在语音识别发展史上享有声誉的人。

当时,MIT也有人做语音识别;贝尔实验室开发了语音识别的决策理论和训练算法等。贝尔实验室解散之后,剑桥大学接过语音识别的大旗成为核心,但都不好用,原因是没有大数据和涟漪效应。

2)大数据、涟漪效应和深度神经网络带来的语音识别爆发

任何技术都有蓄能阶段和爆发阶段,语音识别技术的爆发就是源于大数据、伴随互联网出现的涟漪效应和深度神经网络。涟漪效应,指互联网思维在提高核心技术表现中的作用。也有人称之为优化迭代,比如百度吴恩达将其称之为把研究层、产品和用户使用组合在一起形成一个闭环的迭代优化,这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据,还能学习经验、认识以及怎么使用等,比如说调整哪些东西让用户体验更好。

语音识别是需要经验、数据和用户反馈共同作用来提升表现的,需要利用用户的反馈总结出一些特点,比如说用户在说话时会截断,这

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值