世界上现在有十亿的电话终端,另外,有超过2亿的移动电话已经销售到世界上。而就人的自身习惯来看,通过言谈的交流,利用听和说是人们更愿意接受的交流和获取信息的方式。
移动通信技术与数据通信的结合,提供给人们随处接入网络的可能,但是只有WAP才是我们构建移动商务的唯一平台吗?CTI技术的发展给我们提供了一条新的途径。
CTI技术的进步
经过努力文本语音转换器(TTS,Text to Speech)已经取得了很大的进步,实现了自动的语言分析理解,并允许TTS的使用者增加更多的韵律、音调在讲话中,使TTS系统的发声更接近人声。
在自动语音识别系统(ASR)领域里,自动语音识别系统在从整个词的模仿匹配,向音素层次的识别系统方向发展。整个词的模仿匹配系统,或多或少要依赖讲话者,而且只有很少的词汇量。现在的做法是,自动语音识别系统的词汇表,由一个基于声音片断的字母表构成。要指出的是,这种词汇表是受不同语言限制的。基于这种方式,在一个宽广的声音行列里,讲话能被识别系统发现和挑拣出来,并加以识别。在识别一个词的时候,每一个音素将从系统的输入中挑拣出来,拼接组合后与已经有的音素和词语模板进行比较。而这样的模板能够非常快的被TTS产生出来,也就是说通过文字的输入,来产生需要的模板,并且非常经济的被存储起来。现在许多系统甚至能够支持识别模板的“热插拔",比如说将一个雇员的名字加入雇员识别系统的数据库,不用将整个系统停下来。
通过这些努力,音素的识别大大的减轻了ASR对讲话者的依赖性,并且使得它非常容易去建立大型的和容易修改的语音识别字典,从而满足不同应用市场的需求。在这一方面取得成功以后,今天的开发者正在加入更多的精密复杂的、智能的、高水平的语言学方面的处理到ASR系统中,同时在ASR中增加了对语言上下文环境的考虑。而通过鉴别输入的文法结构和前后关系,以及确定某些词(词窗)出现在谈话中特定位置的概率并制定相应的适用规则,将更加加强系统的精确性。
VoiceXML所取得的成就
5月23日,万维网协会(World Wide Web Consortium,W3C)接受了语音可扩展标记语言(Voice Extensible Markup Language)规范1.0版(VoiceXML 1.0)作为实例。
VoiceXML源自于AT&T、IBM、Lucent和Motorola多年的研究和开发。