自然语言理解技术

转自网络 

研0802李长进

 

  
自然语言理解技术

    自从互联网普及以后,人们难于获取信息的苦恼,很快就变为被过多、庞杂的信息包围的烦扰。虽然通过搜索引擎、目录、人工编辑的社区等工具,人们可以获得一定的辅助;但是这些工具的准确性和方便性仍很不足够,急迫需要向智能化、精确化、专业化、个性化等等以用户为中心的智能信息服务。智能信息服务将成为下一代互联网的主旋律;而自然语言理解技术可以为信息服务带来革命性的理念和崭新的应用,有效提高服务的质量和满意度,为相关行业和信息服务业创造更多的发展空间,是智能信息服务的核动力。

一、 走向实用的自然语言理解技术

  用自然语言与计算机进行交流,获取合适的信息,得到满意的服务,是人们长期以来所追求的。自然语言理解是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLU是自然语言理解(Natural Language Understanding)的缩写。

  随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。机器翻译是自然语言理解最早的研究领域。由于早期研究中理论和技术的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。到了1970年代初期,对语言理解对话系统的研究取得进展。进入1980年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。

  在中国,语音和语言处理技术的研发略晚于国外。清华大学智能技术与系统国家重点实验室属下的语音技术中心1979年创立(原名语音实验室),至今已有25年的历史。在以清华大学语音技术中心为代表的顶尖的学术机构的带动下,中国的语音和语言处理技术得到很大发展。

  相对于规范语言,对自然语言的理解具有更大的难度。这是因为自然语言包含大量的口语语言现象,诸如:省略、指代、更正、重复、强调、倒序等等。涉及到语音的口语对话系统将还包括噪音、含混不清、口头语、吃音、音变等等口语语音现象。

  而相对于基于关键词的技术,自然语言理解技术的优势是:(1)直接:在信息查询时,用户可以不必进行多级菜单的选取而直奔主题。(2)灵活:用户查询不必严格按照某些"关键词"进行询问,只要用户的叙述在"语义"上与要查询的一致。

  一个技术优越而适用性好的自然语言理解系统,应该具备支持上下文相关分析(包括省略分析)、话题自由变换、人机混合主导以及口语对话等技术特点。

  上下文相关分析是指系统在理解当前语句时可以联想用户以前所说的话,进行综合分析,因此即使有时用户所说的话有一定的省略,系统照样可以理解。

  话题自由变换是指系统允许用户在多个话题之间不断转换,系统照样可以记住以前的谈话内容,比如用户在问航班起飞时间时,突然问目的地与本地的时差,然后再确认要先前询问的航班,系统都能满意回答。而目前的一些系统,对话往往只能局限于某一个话题,一旦用户变换话题,系统将无所适从。

  人机混合主导则是完全的自然对话,用户可以转换话题后在回到原来的话题(像人一样);用户可以"答非机问"(多回答或少回答);……而系统都可以根据实际情况提取语义信息,如果用户询问的信息足够,那么系统直接回答问题;而如果用户询问的信息不全或者用户迟疑太久,那么系统则主动询问来获取足够的信息。而不具备人机混合主导性能的系统只能等用户发问,如果用户根本不知道问什么,那么系统将一直待机等待。

  口语对话是自然语言理解技术实现的难点,但是也是应用系统适用性的关键点。口语中,人们的语言很随意,可以省略、更正、倒叙等等,这些口语现象是传统的单单基于词法分析的理解系统所难以解决的,而引入基于关键语义的技术却可以很好地解决。

  从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现。北京得意音通技术公司依托于清华大学语音技术中心,已经在某些领域实现了商品化、产业化,典型的实用系统包括:智能短信服务、智能搜索引擎、智能聊天机器人等。

二、商机无限的智能信息服务

  互联网时代,信息服务给人们带来极大方便和创造着巨大的社会效益、经济价值的同时,也带来了信息爆炸、信息垃圾等等烦恼。采用了自然语言理解技术的智能信息服务,将给陷入信息汪洋大海的人以指南,帮助他们更自由自主、随心所欲地遨游,引导他们快速、准确地获得所需的信息和服务,从而大大地拓展信息服务的发展空间,为相关产业带来无限的商机。最近一段时间,智能信息服务已经成为国际IT业的最新潮流,获得了亿万网民的青睐。对于使用汉语,热衷于短信、网上聊天的中国用户而言,智能信息服务的实用性以及蕴含的商机更是显而易见。

  采用自然语言理解技术的智能信息服务创造了电子服务新概念,其最大的特点是具有中文自然语言理解功能。它首先对提出的问题进行断词、断句,然后根据系统预先设置的语义规则理解整句话的意思,形成相应的查询条件,在现有数据库进行快速而准确查询,给出用户需要的答案或者提示用户进一步输入有关的信息。由于自然语言理解技术发展的阶段性,目前还做不到象人一样具有足够智能的、通用的智能理解,但是只要划定具体的领域(领域范围可大可小,如天气、体育等简单信息查询,也可以是交友、购物、保健等宽泛的智能聊天/咨询等等),性能先进的自然语言理解技术都能量身定做出具足够实用性的智能信息服务系统,自动理解客户用自然语言发出的相关领域的问题,使网络交流变得更人性化,信息查询变得更方便、快速和准确,从而获得高质量的电子服务。以下是现阶段自然语言理解主要的应用。

  智能短信服务。短信服务商可根据具体应用领域定制一系列的智能短信业务,如旅游交通、吃喝玩乐、金融证券、交友网聚、智力竞猜等受欢迎的服务,让服务商和用户都抛开厚重的手册和复杂的编码,代之以口语化的自然语言通过短信输入,短信系统能迅速理解用户的意思,提供准确、周到的信息和服务。这样的服务将直接刺激用户使用短信服务的兴趣和频率,并为短信服务商和电信运营商开发更新的、更具吸引力的业务创造了很好的条件。

  智能聊天机器人。目前流行于各大网站、各类即时通讯软件的聊天机器人还没有应用成熟的智能语言理解技术,仅仅实现了基本的、简单的对话交流、信息查询等功能。引入自然语言理解技术,能建立新型智能聊天机器人,通过与用户对话、聊天等生动、灵活的形式,了解用户的需求,利用智能搜索技术采集和分析互联网和知识库的信息内容,进行自动过滤、筛选、获取有效内容,对相关信息内容进行智能化编辑整理,并返回给用户;这样,聊天机器人的服务将会更易用、更实用,能实现功能强大而实用的智能聊天、智能游戏、个性化的新闻定制、智能网络搜索、智能电子商务等业务,给用户以极大的方便、无限的乐趣。

  智能搜索引擎。普通的搜索引擎引入中文自然语言理解和知识管理技术,构造成新的智能搜索引擎,就能提供全新的信息查询服务,创造更综合的增值服务。目前的搜索引擎由于只使用关键词技术,没有引入自然语言理解,每次搜索时只是按照关键词进行匹配,返回的大量信息和链接,其中很大部分是垃圾信息或者不是用户需要的信息,往往导致用户无所适从。而门户网站或者专业网站虽然对信息进行很好的分类,但是首先要用户记住网址,还要懂得分类的标准,然后逐层点击相应的分类链接,才能获得所需的信息。这样的信息分类查询给信息服务商产生很大的工作量,服务成本和进入门槛显著提高,而用户使用起来也不方便,导致用户的流失。基于内容的智能搜索引擎是依靠语义网络、汉语分词、句法分析、处理同义词等语言理解技术最大程度地了解用户的信息需求,获得更高的易用性、更准确的范围定位、更智能的搜索结果。

  运用了先进的自然语言理解技术,智能搜索引擎可以识别并回答用户的问题,使用户摆脱了传统搜索引擎基于关键字的束缚,指引用户更有效、更快捷地寻找到所需的资料,同时为用户提供相关的、有参考价值的其他内容。由于这些特点,使得智能搜索技术能够在互联网信息检索的各个方面得到广泛的应有。它可以为大型综合搜索引擎提供后台支持,使之具有人性化、交互性的特点。它能够方便地实现垂直搜索引擎的专业类别内搜索;当然也可以为信息门户网站提供方便快捷的站内信息搜索服务。

  智能搜索引擎除了在互联网上使用外,也可以支持WAP协议而应用在手机上。其实用户往往在逛街、旅游、交通等室外环境、移动状态时更需要随时查询信息。手机是很好的查询工具,但是手机的屏幕小、内存少、带宽窄,不适合接收和保存大量的信息,更不可能翻看数以百计、千计的信息。传统的基于关键词搜索或者分类信息查询模式都存在一定的缺陷,特别不适合在手机上使用;而基于自然语言理解技术的智能搜索引擎,就能很好地为手机用户提供随时、随地、随心的信息服务。

  举一个典型的应用:精品购物指南报与得意音通公司合作提供的智能生活资讯信息服务系统,采用中文自然语言理解技术,在吃喝玩乐、影视娱乐、消费购物、户外运动、美食餐饮、医疗保健等领域通过互联网、短信、WAP等多种通讯手段,为商家和用户提供更方便、直接的信息交流和互动手段,成为在北京生活、工作、学习和旅游的广大消费者重要的信息查询工具。

三、未来应用展望

  用户们呼唤自然语言,因为它是人机交互的最高境界,是人机交互最自然的方式。有理由相信,在不远的将来,任何人、在任何时刻、在任何场所、在任何设备上,都可以通过自然语言方便浏览网页、互相传递信息,实现随时随地沟通交流的目标。

  不久的将来,我们可能会经常遇到这样的应用场景。一个人到一个新的城市,如北京,他想尽快了解有关北京的生活服务信息,就可以用手机或者电话打到一个提供智能信息服务的系统。他可以直接用口语去问一个拥有海量信息的服务器:北京有哪些好玩的地方,哪些地方能够提供很好的餐饮服务,哪些地方可以购物,那些地方可以享受文化娱乐;还可以与系统进行人机对话,轻松地买机票、订房间等等。他通过自然语言与智能信息服务系统进行人机交互,就能享受周到的服务。在这样的例子中,需要用到很多的技术和服务,其中最关键的就是交谈式语音识别和理解系统。

  上海2010年世博会的举办,将是自然语言理解技术迅猛发展的大好契机,上海世博胡同时也将是智能信息服务的巨大舞台。世博会最大困难之一是"语言障碍"。国内外产业界紧密合作,要利用现代信息技术,特别是自然语言理解的最新科学技术成就,研制"面向世博的多语言智能信息服务网络系统",力争在2010年上海世博会期间为各国运动员、记者、观众和来自全世界数以百万计的旅游者提供综合、全面、多语种、可定制的信息服务,以实现申奥报告提出的"任何人、在任何时间、任何场所都能够安全、方便、快捷、高效地获取可支付得起的、丰富的、无语言障碍的、个性化的信息服务"的承诺。

  上海世博的多语言信息服务将包括多语言信息同步发布、信息查询和语音交互式的电子商务,并重点提供基于位置的信息服务。另外还提供人际交流的辅助工具,如口语翻译机和自动翻译电话。系统将在赛事安排、比赛成绩等奥运相关信息查询,住宿、天气、交通、旅游、餐饮、娱乐和购物等公共服务信息查询,比赛、演出门票、机票、火车票订购,以及社交活动等场合提供充满人性化的多语言智能信息服务,相当于建立了一支虚拟志愿者信息服务大军。智能信息服务网络系统不仅将成为上海世博会的闪光点,有关成果也必将应用和推广到国内以及世界不同的地区和领域,从而推动信息服务、IT产业以及相关领域的发展,形成新的经济增长点。

  和人类进步过程中其他任何一种技术的发展历程一样,自然语言理解技术在任何一个不同的成熟阶段都有一个不同的应用形式和不同的市场定位。在这种技术到市场再到技术的螺旋式上升的过程中,技术越来越成熟,市场也越来越成熟,从而让技术更好地为人类服务。自然语言理解技术给智能信息服务提供了威力巨大的核动力,智能信息服务给人类更自然、自主的信息交流手段,将创造出全新的产业空间。人们渴望发展自然语言理解技术以加速信息、知识与文化的交流,促进社会、经济、科学的进步,这是自然语言理解技术新的强大的推动力量,也是每一个国家都面临的新的挑战。

没有更多推荐了,返回首页