Nuance是一家专职与语音技术软件的全球化公司,该公司的技术优势在于多语言识别以及声纹识别。下面将详细介绍一下Nuance公司的一些技术架构及其提出的语音技术的发展方向。
传统的寻呼业务的发展方向大致遵从如下一个轨迹:
人工服务
→IVR服务(语音菜单,按键选择)→连续语音自助服务→开发式问答
如今,
Nuance
已经做到开放式问答这一步,举例来说如果要打电话订机票,你只要对系统说“我要订一张明天下午从北京到上海的机票”,然后系统就可以自动识别并处理你的请求,并向订票系统发出信号。
目前,
Nuance
在全球最具领先优势的两项技术是声纹识别技术和
ASR
技术(随意说技术)。
声纹识别技术,即说话人识别技术,目前可以做到
99%
以上的准确率。传统的说话人识别技术所顾忌的声线变化(感冒或者年龄增长等因素对声音造成的影响)导致的系统识别不能等情况在这里都得到了解决。该公司的系统据称可以自适应人声的变化而不会出现识别不能的情况。
在语音识别领域,100%的识别率几乎不可能做到,所以一定要有另外的一套体系来保障在识别失败的情况下也可以确认用户的身份。
下面说另外一项技术——
ASR
技术,中文名为随意说技术。顾名思义,应用该技术的系统允许说话人可以按照自然语言的方式来说话,系统可以准确识别说话人的语言,并理解话语的意思。其技术内幕据个人猜测应该是关键字识别技术以及数据库关键词关联搜索技术。在系统将语音识别的基础上,提取语义中的关键字,然后在数据库中搜索这些关键词的关系,然后做出判断,进行下一步的处理。
下面通过几个例子来说明一下该过程,第一个例子是香港特区政府正在应用的电话投诉语音导航系统。香港政府允许市民对任何不满的地方进行投诉,然而这些问题可能是由不同的部门负责的,但是一般市民不知道自己遇到的问题应该找哪个部门解决,现在这个系统就可以自动将问题识别并转接到相应的部门。比如一个市民打电话说“
XXX
体育场的更衣室又脏又乱!”,系统会自动识别相应内容并将电话转接到康文署(负责该类问题的部门)。同样是更衣室脏乱的问题,如果地点换成了港口,那么就应该是海事署来负责。该系统可以近乎完美的处理这种分类问题,大大提高了政府的办事效率和市民的满意度。
第二个例子是澳门政府应用的市政服务电话导航系统。例子中,一个市民打电话问“我要结婚登记,应该找谁?”,系统可以自动回应:“您应该带着身份证明到民政部办理,电话
XXXXXXXX
”。这里,系统自动对说好人内容进行了理解和判断,并给出解决方案,而没有依赖人工的服务。