认清VoiceXML -- 一篇老文章.


黄伟峰 2001/11/22

  随着CTI(Computer and Telephone Integrated)技术和语音技术的发展,IBM,LUCENT,AT&T和MOTOROLA四大通信公司成立了VoiceXml(Voice Extensible Markup Language)的论坛,通过使用这种新的语言,能使用户通过电话和语音来访问INTERNET。这项技术能够帮助企业,电信公司,互连网公司增加网络使用率,提高用户忠诚度,开发新市场,增强企业的竞争力。

VoiceXml的起源

  Voice XML 是一个新的 XML schema 用来制定通过语音对话访问Web 的内容和其交互语音应答的传递标准。在 1999 年初,IBM, 摩托罗拉, 朗讯, 和 AT&T 成立了 Voice XML 论坛, 来协调现有的语音技术使得可以通过声音和电话访问因特网。语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问 Web,也为所有的用户提供了更为便捷的 Web 访问功能。
  新的语音技术可以创建出对话驱动的应用程序,例如语音识别技术(ASR),语音合成技术(TTS)以及记录和回放数字化语音在 PC 和服务器(分发到客户端设备)上 。Voice XML 提供了一种与技术语言,可无关的以用在语音应用程序。这些应用程序将后端处理语音的服务和处理机制与前端基于 Voice XML 的表示层分离开。例如,一个精心设计的 Web 站点可以轻而易举地支持语音驱动的浏览器(比如您很可能在移动电话上会使用的那种),同时它有能支持其它的浏览器(比如一个 WAP 浏览器或 HTML 浏览器)。当接受到来自浏览器的最初请求时,服务器将监测出浏览器的类型。如果浏览器被确认为一个语音浏览器,服务器将返回对应的 Voice XML 页面。
  由于VoiveXml技术和语音技术的快速发展,已经有超过150个公司和组织加入和Voice Xml(http://www.voicexml.org)论坛,其中包括一些非常有名的通信公司,如AT&T, LUCENT, MOTOROLA, ALCATEL,CISCO,HITACHI,以及我国的华为通信公司。

VoiceXml的系统结构及其应用举例

  VoiceXml 1.0规范基于W3C的工业标准XML,为语音和电话应用的开发者,服务提供商和设备制造商提供了一个智能化的API。VoiceXml的标准将简化WEB上具有语音响音服务的个性化界面的创建,使人们能够通过语音和电话访问网站上的信息和服务,同时与CGI(PERL,PHP,C,JAVA SERVLET等)的脚本结合在一起来检索后台数据库,访问企业内部网,从而最终将语音浏览器与微型浏览器融合在一起,实现计算机网络与电话技术的完美结合。其具体系统结构如下:

  从图中我们可以看出,同传统的INTERNET网站相比,在不需要太大的改动前提下,只要增加一个VoiceXml的服务器处理来自PSTN的应用即可。在VoiceXml的服务器中,包含了VoiceXml的解释器(VoiceXml解释程序语境),VoiceXml自带的浏览器,自动语音识别(ASR)及文本到语音(TTS)的转换设备。
  VoiceXml解释程序是一个计算机程序,它解释一个VoiceXml文件,引导和控制用户与执行平台之间的交互作用。VoiceXml解释程序语境也是一个计算机程序,用一个VoiceXml解释程序解释一个VoiceXml文件,并且可以与执行平台相互作用而与VoiceXml解释程序无关。 
其具体流程如下图所示:

  比如说,用户想知道INTEL公司的当前股价,就打电话到提供该服务的公司,通过DN—URL的映射,到达了该网站的VOICEXML的服务器,VoiceXml的服务器马上调出相应的VoiceXml文件,在由VoiceXml解释程序处理,通过TTS产生语音输出,来回复用户的请求。当然,在处理VoiceXml文件的过程中,有时还需交给后台的CGI程序处理,处理后的结果再由WEB SERVER交给VoiceXml SERVER处理。处理后用户可能会听到的回答是“Welcome to the stock market,which stock price would you like to know?”,其对应的VoiceXml文件为Welcome.vxml(见资源)。用户只需回答他(她)所感兴趣的股票,如”INTEL“,从而摆脱了传统IVR令人模糊不清的一大堆选择。这时用户的回答通过VOICEXML SERVER的处理,交给后台的CGI程序查询数据库中的有关INTEL股票的价格,在由VOICEXML SERVER的处理,用户听到的可能是”$55“。

VoiceXml的特点和应用范围

VoiceXml作为一种标记语言,主要有以下特点:
  1、VoiceXml作为一种通过每一文件里指定的多重的交互作用,最小化客户机/服务器之间的交互工作 
  2、实现应用开发者与低层的软件和系统平台上的软、硬件细节无关
  3、将用户交互作用的代码(在VoiceXML中)从服务逻辑(CGI 脚本)中分离出来
  4、要使提供的服务能随处可得,要求这些服务能够跨越不同的执行平台。对于内容服务商、工具提供商和平台提供商来说,VoiceXML是一个公共语言。
  5、使简单的交互作用非常易于使用,要求所提供的语音界面能支持复杂的对话
  VoiceXML语言描述的通过语音应答系统实现人机交互通信,其范围包括:合成语音的输出(TTS)、音频文件的输出、话音输入的识别、DTMF输入的识别、语音输入的录音、电话功能像呼叫转移等。 
  VoiceXML提供字符和语音输入收集,将输入分配给文件定义的请求变量,并且在用户回答后做出决定的方法。VoiceXML确定文件可能被连接到其他的文件通过通用资源标示符(URI)。 
VoiceXml在以下的领域内有着广泛的应用。
  1、信息的获取。如股票信息,天气情况,体育消息,交通信息等。
  2、电子交易(包括电子商务,电子零售)。如银行的帐户查询,存取,股票交易等。
  3、电信领域的服务。如UNIFIED MESSAGE,CALL CENTER(呼叫中心)等。

有关VoiceXml的部分产品介绍

  1、IBM
  IBM主要开发了VIAVOICE的VOICEXML的服务器,以及VOICEXML的开发包,从而能与WEBSPHERE结合,实现计算机网络与电话的完美结合。但是该服务器只支持英语,法语和德语。
  2、MOTOROLA
  MOTOROLA也有自己的VOICEXML的网关及开发VOICEXML的开发包。但是也不支持 中文。
  3、NUANCE
  NUANCE是一个专门开发语音的厂商。他有开发和构架VOICEXML的一整套工具。其中包括VOICE WEB SERVER,V-Builder(开发VOICEXML的可使化工具),Secure Verifier 。尤其是他对超过20种语言(包括中文及广东话)的支持及其优良的稳定性赢得了很多市场分额,其中包括American Airlines,Bell Atlantic,UPS等大公司都已成为他的客户。

天极网

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值