早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
上述段落摘自维基,语音识别历史章节。
触屏手机非常流行,但是在触屏上打字很费劲。所以近期国内外都加大了对语音识别的研究。本人对语音识别非常着迷所以希望可以借着CSDN这个人才济济的平台和大家交流。
你还能回忆起刚刚接触计算机时练习盲打吗?那时候你是不是想过如果能通过说话代替打字该多好。当时我就有种非常强烈的愿望要让人们从打字中解放出来。就是这个强烈的愿望驱使我加入了程序员队伍。因为我知道只有成为了程序员才有机会实现让人们通过声音控制计算机的梦想。
常言道机遇与挑战并存。在语音识别领域也一样,技术风险非常很高:如果你有了成绩可能功成名就,但是也有可能永远默默无闻。所以我建议,而且我也是这么做的:不要在此语音识别上下注太多,合理安排时间。
我会继续写后续文章同大家分享这些年积累下的知识和代码。
作为程序员把人们从打字中解放出来是我们的使命,如果这些事情我们不做那等谁来做?