语音识别是指将人的说话的声音转换成相应的文字,这需要计算机自动识别出语音信号中的单词和词汇,甚至理解其中所包含的意思。语音识别的应用面特别的广泛,包括语音拨号,语音导航,设备操作控制,语音文档检索,听写数据录入等,如果语音识别和机器翻译以及语音合成技术相结合,还可以提供从一种语音到另外一种语音的计算机同声翻译。
按照不同的应用要求,语音识别技术的复杂程度有很大的差别。
1、孤立语音/连续语音识别。前者要求用户一个字一个字的说,后者允许用户以自然的方式连续说话,显然前者对于每个音节的识别会比较准,难度减轻不少,但是后者的会困难许多。
2、小词汇量/大词汇量语音识别。前者只允许用户使用预先规定的有限词汇,后者则不受限制。显然,允许使用的词汇量越大,则对语音识别技术的要求就越高。
3、特定人/非特定人语音识别。特定人语音识别是指系统在使用前必须由用户输入大量的发音数据、对识别软件进行训练,然后才可以正常进行使用。非特定人系统则没有这个要求,显然识别非特定人的语音困难会更大。
语音识别涉及多门学科,是人工智能领域的一个重要的课题,几十年来人们进行了不懈的努力和探索,近几年在GPU平台、大数据训练和深度学习算法的支持下,电话语音数据switchboard基准测试的词错率已经降低到了6%以下,达到了人工语音识别差不多的水准。尽管还存在不少的问题,但是安静背景、标准口音、常见词汇上的语音识别已经达到了可用的状态。
以iPad平板电脑和iphone手机中的siri为例,用户可以和平板电脑和手机进行简单的对话,完成搜寻资料、查询天气、设定手机日历、设定闹钟等多种服务。siri软件可以支持15个国家和地区的语言,包括英语、法语