HNC(概念层次网络)理论
参考:
http://www.hackchi.com/hnc/books/hnc/bookml.html
HNC是“Hierarchical Network Concepts(概念层次网络)”的简称,它是面向整个自然语言理解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、层次化、网络化的,所以称它为概念层次网络理论。
1 HNC理论的形成
自然语言处理作为人工智能的一个分支,已有40年的发展历程,形成了计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科。它的发展主要围绕以下三个方面:
1、自然语言的表述和处理模式;
2、自然语言知识的表示、获取和学习;
3、研制开发自然语言的应用系统。
在自然语言的表述和处理模式方面,源于印欧语系的语法学和句法分析一直居于主导地位。八大词类、六种句子成分、短语结构和句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在20世纪70年代,曾一度受到菲尔墨(Fillmore)和山克(Schank)的质疑和挑战。80年代以来,语料库语言学的兴起使人们对统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。参见人工智能点评
自然语言传统分析模式(含统计模式)的根本弱点何在?一言以蔽之,它不是描述语言感知过程的适当模式。
面对语音流的五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊),面对文字流后三重模糊,大脑的语言感知应付裕如,表现了强大的解模糊能力,自然语言处理技术当前无从望其项背。
近20年来,自然语言处理囿于传统模式,不图突破。参见批判提示但是,它所面临的所有重大课题,从音词转换到机器翻译,从全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。
响应这一呼唤才意味着真正的突破,但突破的契机何在?悲观论者认为:语言感知过程p3密切依附于大脑中万亿神经元的神经网络,依附于浩瀚无垠的世界知识海洋,在对这个“网络”和“海洋”的奥秘未作充分揭示之前,模拟语言感知过程是不现实的。背景知识:1964年,美国科学院成立语言自动处理咨询委员会(简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为《语言与机器》的报告,简称ALPAC报告,对机器翻译采取否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由。”报告还指出,机器翻译研究遇到了难以克服的“语义障碍”。在ALPAC报告的影响下,许多国家的机器翻译研究进入低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。摘自《自然语言的计算机处理》p408 ,冯志伟,1996年10月
事情果真是如此悲观的么?HNC理论对此进行了8年的探索,结论是,突破的契机是存在的,其要点是:
1、要把自然语言所表达的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。
2、建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义完备性,能够与自然语言的词语建立起语义映射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都具有确定的意义,可充当概念联想的激活因子。这个符号体系就是下文将要详细介绍的三大语义网络及五元组等,它是计算机把握并理解语言概念的基本前提。
3、建立语句的语义表述模式,即语句表述的数学表示式。这一模式的完备性应表现为可表述自然语言任何语句的语义结构,即乔姆斯基所提出的语言深层结构。这个深层结构就是下文将要简要介绍的句类格式。以句类格式为基点的语句分析叫做句类分析,是对大脑语言感知过程的初步模拟,在上述五重模糊或三重模糊的消解方面,理论上,句类分析应能接近甚至超过常人的水准。
上述三点是形成HNC理论的基本背景。
但是,解模糊处理仅仅是自然语言理解的万里长征的第一步,仅涉及HNC理解处理系统(本文第三部分有简略介绍)的部分模块。作为自然语言的一种表述和处理模式,HNC是开放的,并处于不断完善和深化的过程,在这一过程中,更需要不同学科的合作,特别是信息处理与语言学的合作,在8年的艰苦探索过程中作者深深感到这一合作的迫切性。现在这一合作的势态已初步形成,正是在合作者的鼓励和具体推动下(林杏光1997),HNC理论首次公开发表论文,主要目的在于扩大这一合作的势态。
2 HNC理论的基本内容
人对语言的理解本质上是一种认知行为,如果能描述大脑认知结构的具体模式,计算机就可以运用这些模式对自然语言进行理解处理。我们把认知结构分为局部和全局两类联想脉络,认为对联想脉络的表述是语言深层(即语言的语义层面)的根本问题。什么是局部联想和全局联想呢?简单地说,局部联想是指词汇层面的联想,全局联想是指语句及篇章层面的联想。更简单地说,理解句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文语境入手,前者就是局部联想,后者就是全局联想。当然,人在理解句子的时候,这两种联想不是截然分开的,而是并存的、相互作用的,计算机理解语言也应该综合运用这两类联想脉络。HNC的出发点就是通过建立两类联想脉络来“帮助”计算机理解自然语言。下面就分别介绍HNC建立的两类联想脉络。p4
2.1 局部联想脉络——五元组和语义网络
局部联想是词汇层面的联想,自然语言的词汇是用来表达概念的,因此,HNC建立的局部联想脉络体现为一个概念表述体系,这个概念表述体系可以简单概括如下:把概念分为抽象概念和具体概念,对抽象概念用五元组和语义网络来表达,对具体概念采取挂靠展开近似表达方法。
概念有抽象与具体之分。在一般人看来,抽象概念总是比具体概念难于把握,中文信息处理界已有的汉语语义分类系统,其内容主要是对比较容易把握的具体概念的分类,这样的语义分类系统没有摆脱对客观事物进行科学分类的束缚,对抽象概念则几乎束手无策。参见批判提示实际上,从深层来讲,抽象概念比具体概念更具有基元性、系统性,更容易表达;具体概念是客观存在物在人的思维中的一种直接反映,它里面包含了许多世界知识,而对世界知识是很难进行详尽表达的。所幸的是,人对具体概念理解和认识的深度可以比抽象概念浅,所以可以采取实用原则,“不求甚解”。HNC理论侧重于抽象概念的表达。
HNC理论通过五元组和语义网络层次符号来完整地表达抽象概念,前者表达抽象概念的外在表现,后者表达抽象概念的内涵。
任何一个概念都有需要从不同侧面予以表达,这种现象叫做概念的多元性表现。具体概念的多元性表现十分复杂,难以给出规范化的表达,抽象概念则有所不同,它的多元性表现在自然语言中有明显的迹象,这就是词性现象。印欧语系的词根或具有词根特色的词,可以加上不同的后缀分别构成动词、名词、形容词和副词,这种词性的转换就是抽象概念多元性的生动表现,也就是说,词根相同词性不同的词是对同一概念不同侧面的表达。汉语对抽象概念的多元性表现则没有相应的形式标志,而往往是同一个词兼有名词、动词、形容词、副词中的几个属性。汉语的词性模糊现象(即无形态变化)和西语以形态变化表现不同词性的现象都是抽象概念多元性的生动表现,形态变化的有无只是一种形式,本质在于抽象概念本身具有这种多元性表现的固有特征。
那么,抽象概念多元性表现的“多”是一个模糊的“多”,这是一确定的“多”呢?或者说,能否给以规范化的表达?或者再换一个说法,这个多元性表现的“多”是否存在某些基元(primitive)呢?答案是肯定的。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表达,这就是抽象概念的五元组特性,简记为:(v,g,u,z,r )特性,它们是抽象概念多元性表现的基元。任何抽象概念都具有的五元组特性,即都需要从五个侧面加以表达,不过,对某个抽象概念各个侧面的表达,自然语言中未必都有相应的词语,而且不同语种间存在着差别。反过来,自然语言中的一个表达抽象概念的词语必定是从五元组中的某个或某几个侧面来表达某个抽象概念。例如,“思考、思维、想法”就是分别从五元组的vg,g,r侧面对同一概念内涵的表达。五元组是词性的本质内容,是词性的基元。所以,不必为汉语词汇的大量兼类现象感到困惑。
为表达抽象概念的内涵,HNC设计了三大语义网络:基元概念语义网络、基本概念语义p5网络和逻辑概念语义网络。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任一个节点都可以通过从最高层开始、到该节点结束的一串数字唯一地确定,这个数字串叫做层次符号。三大语义网络是抽象概念的三大聚类。
基元概念语义网络的一级节点分为两大类:一类是主体基元概念,另一类是复合基元概念。
主体基元概念有6个一级节点,分别是作用、过程、转移、较应、关系、状态,它们构成作用效应链。什么是作用效应链?作用效应链反映一切事物的最大共性。作用存在于一切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会引发新的作用,如此循环往复,以至无穷,这就是宇宙间一切事物存在和发展的基本法则,也是语言表达和概念推理的基本法则。
这6个环节的源头是作用,结果是效应。自然语言的主要内容就是对这六个环节进行局部和总体的具体表述,我们对句类(见下文)的划分就是以此为标准的(这里顺便说明一下,山克的“概念从属理论”主要考虑了“转移”这一个环节,我们对“转移”二级节点的设计就部分吸收了“概念从属理论”的主要结果)。作用效应链既是用于表达概念的语义网络的核心,又是划分句类的标准,换句话说,它既是局部联想脉络的基础,又是全局联想脉络的基础,两个联想脉络通过它联系起来,所以,在一定意义上可以说作用效应链是HNC的理论基础。
复合基元概念主要涉及人类活动,这是因为,自然语言是人类的交际工具,其主要表述对象是人类活动而不是自然现象。复合基元概念总共设置了8个一级概念节点,根据人类活动的语境特征划分为三个层次,即生理本能活动、一般理智活动和社会性活动。
逻辑概念语义网络分为两类:一类是语言逻辑概念,大体上相应于汉语的虚词,有11个一级概念节点,分为语义块区分标志符、语义块组合标志符、语义块及句间关系说明等三类。这11个一级节点的划分主要基于它们对语义块感知及句类辨识的作用,面不是它们的语法特性。另一类是基本逻辑概念,有两个一级概念节点:比较和基本判断。
HNC语义网络的设计思想有两个来源:一是奎廉(Quillian)的语义网络理论、菲尔墨 的格语法和山克的概念从属理论;二是汉语的“字义基元化,词义组合化”现象。第一个来源提出了“语义基元”的杰出思想并暗含着“总体表述”的宏伟目标,第二个来源提供了语义基元的宝贵原料。汉语字少词多,仅用几千个汉字加以组合就构成许多的词。几千年来,汉语随着社会的发展而发展,新词不断增加,但组成词语的汉字却几千年很少变化。汉字字义的基元化和汉语词义的组合化是一个伟大的宝藏,HNC语义网络的形成深深受益于这一宝藏的启发。
三大语义网络为表达抽象概念的内涵而设计,最终将用它来描写自然语言词汇的语义,p6但网络本身却不是直接面向语言词汇的,而是面向构成词汇语义的概念基元的,适用于任何语种。网络上的任何节点本身都是概念,但这些概念只是庞大的概念海洋里的“元素”,即它们是概念基元,它们通过不同方式的组合而构成各种各样的、无数的概念,HNC定义了8种组合结构,用以表达复合概念。
三大语义网络的设计,可以解决现代语义学中的两个难题。一是义素分析法的难题。义素分析法试图用分解的方法、用义素(语义原子)来描述词汇语义,它对一些词的意义进行了成功的描写,但是,语言的义素到底有多少,义素分析法没找到答案,因而不能落实到对全部语言词汇的描写中。三大语义网络的各个节点,即概念基元,大体上相当于义素,可以用来描写任何语言的所有词汇语义。语义网络采用了分层的灵活结构,可以从高层到底层根据需要不断往下设置节点,而由于有上层的控制又不会零乱,从而解决了义素分析法的难题。二是语义场的难题。语义场理论看到了语汇语义的关联性和系统性,但是,语言中到底有多少个义场,义场该怎样划分,义场之间、义场内部都是怎样的关系,对这些问题理论都没能解答。三大语义网络建立了语言深层概念的网络,它是一个整体的设计,是一个完整的系统,它各个节点下的网络都形成相关联的概念的聚类,这些聚类就相当于语义场。更重要的是,通过语义网络,义场内部、义场之间都建立了联系,而且这各种各样的联系都可以通过层次符号显式地表达出来,从而使计算机能够掌握和操作。
五元组符号和语义网络的层次符号的适当组合可以实现对抽象概念的完整表达。这种表达方式能够显式地表达出自然语言概念之间的关联性,从而有助于计算机把握和理解。例如,“精神-振奋、无私-奉献、慷慨-就义、锦绣-山河、远大-前程、 承担-责任、召开-会议”精神g714、振奋v714em1、无私uvc3a2+u011、奉献vc3a2+u011、慷慨 gud02c33;gu9431c33;gu714y、就义vb02+v146、锦绣xj2-0、山河 wj2-0、远大ju221、前程 (gr10a8;gr910a8)、承担vc139、责任u139、召开vc3959、会议 gc3959参见HNC符号实例集1这些词语间的优先搭配在自然语言中是“理所当然”的,把这些搭配中的词用五元组和层次符号表示,各个搭配中的前后词语就会具有相同或相近的层次符号,而只是五元组符号不同,从而使它们之间搭配的“理所当然”得到显式的体现。可见,用五元组和语义网络层次符号表达语言概念的方法可以解决语义搭配(或称语义约束)的难题。传统的词性搭配不能解决语义问题,动词后可与名词搭配,但“动+名”结构根本无法保证语义的正确,这种语法正确、语义荒谬的困难必须借助语义约束来解决,但语义约束一直找不到表达和把握的手段。三大语义网络完成了概念之间关联性的设计,找到了解决语义约束问题的根本途径。
对概念关联性的表达是语义网络的首要目标。概念基元的首要价值与其说是给出复合概念的精确表示,不如说是给出概念关联性知识和联想脉络的线索。自然语言理解的中心任务是解模糊,如同音模糊消解、一词多义模糊消解等,这些模糊的消解统称为多义选一处理。对自然语言词汇的多义选一处理是人类理解自然语言中最频繁、最基本的操作。对这一操作过程的形式模拟不在于并行处理或快速计算,而在于以什么巧妙的方式完成大量语义距离(语义关联性)的计算参见存疑录。层次符号的构造方式把最频繁、最基本的语义距离计算变成了对层次符号的简单逐层比较。这是HNC用语义网络层次符号表达概念的基本出发点。层次符号是一种灵活的分层结构,它到任一层都代表一个概念,至于这个(些)概念与相应的语言概念之间,究竟谁是谁的近似,已无关紧要。重要的是,层次网络符号对概念的局p7部联想脉络给出了明确的表示,便于计算机把握概念之间的关联性。
语义网络层次符号的设计为计算机理解自然语言的语义提供了有力的手段。当然,在工程实现上首先要用语义网络层次符号完成对自然语言词汇语义的描写,这是一项浩大而艰巨的工程,但这个瓶颈问题跟过去相比已有了本质的不同,过去缺乏语义描写的完备手段,现在手段已备,剩下的只是工作量的问题。
下面简单说明对具体概念的表达。一般来说,具体概念的精确表达要比抽象概念困难得多,因为它涉及到许多世界知识,这些世界知识是人类认识积累的结果。但另一方面,人在理解自然语言过程中对具体概念的认识深度可以比抽象概念浅得多,天生的盲人仍能同常人一样掌握自然语言,道理就在这里。所以,对具体概念的表达,应采取大胆近似的方案,这是对具体概念进行层次符号设计的基本出发点。HNC用“类别符号+挂靠”的方式近似地表达具体概念。
具体概念的类别,从语言表达的角度来看,先分为物、人、物性三类(分另用符号 w,p,x 表示)比较合理。物有自然物与人工物之分,人工物又有现代与传统、物质与精神产品之分,当然还可以有各种各样的分类标准。人和物性也同样存在子类划分问题。在处理具体概念的分类问题时,不宜照搬自然科学的分类方法,HNC的着眼点主要是引起概念的联想,而不是分类的科学性。参见批判提示
对具体概念的内涵,HNC采用向抽象概念的基元概念和基本概念挂靠的方法表达。例如,人、一般人工物、现代产品这几类具体概念分别用符号 p,pw,w9 表示,基元概念是的概念节22b表示自身转移,那么,向它挂靠的 pw22b 就表示交通工具;219 表示针对性接收,w9219 就表示现代探测设备;411表示结合,p411就表示夫妻;382 表示废弃,pw382 就表示垃圾;基本概念里的概念节点711和712分别表示正和负,p711和p712就分别表示男人和女人。参见HNC符号实例集2显然,这种挂靠的表示方式都是很粗糙的近拟,但其重要意义在于:通过这一近似表示,计算机就能对有关概念之间的关联性有所“领会”。挂靠式表示方式的目的,就是在具体概念与抽象概念之间建立一种关联,并把这种关联用符号显式地表示出来,以利于计算机计算语义距离。
挂靠的表示方式只适用于一部分具体概念,一些基本的物质概念仍然需要进行独立的层次符号设计。为此,我们设计了一个基本物的语义网络,这个网络有7个一级节点:热、光、声、电磁、微观基本物、宏观基本物和生命体。这些节点的设置仍是服务于联想脉络的建立,并不完全遵循自然科学的标准。
按照上述设计,对概念基元就可以写出下面的语义表示式:
F=Σ(字母串)(数字串)
F代表概念基元的HNC符号。字母串由概念类别符号(φ,j,l,jl,p,w,x)构成,数字串由16进制数字的0~d构成。其中φ表示基元概念,j表示基本概念,l表示语言逻辑概念,jl表示基本逻辑概念。
F=ΣFk
Fk之间的连接通过8种概念组合结构符号来表示。
2.2 全局联想脉络——语义块和句类
全局联想脉络是语句及篇章层面的联想。语义块和句类理论是在语句层面设计的全局联想脉络,篇章层面的联想脉络本文暂不介绍。
简单地说,语义块是句子的语义构成单位,形式上可以是一个词、一个短语或一个句子。语义块类似于传统语言学中的短语,但是,两者具有本质的区别,表现在:第一,从内涵上来看,语义块是语义,即语言深层的定义,短语则是语法,即语言表层的定义;第二,从形式上来看,语义块可包含或嵌套另外的一个甚至多个语句,而短语不能。另外,传统的短语更多的是被看作词的组合结构,而不是句子的直接构成单位。参照概念比较集粹
语义块这一概念的提出是为了便于从语言深层(即语义层面)描述一个句子。用词或短语描述句子,无法清楚地界定一个句子是否完备,如果问一个句子应该或者可能有多少个词或短语,便难以回答。但有了语义块的概念,就可以明确回答一个句子有多少语义块以及每个语义块的类型等问题。
在通常情况下,一个语义块包含核心部分和说明部分。语义块按其语义功能分类,语义块的语义功能主要取决于其核心部分。
语义块分为主语义块和辅语义块两大类。主和辅是从句意表达的角度来分的,主语义块是句义的“必不可少”的成分,辅语义块是句义的“可有可无”的成分。主语义块有4种:特征E、作者用A、对象B 和内容C。辅语义块有7种:条件、手段、工具、途径、参照、因、果。
E,A,B,C四大主语义块划分的理论依据是:一个语句表达的内容无非是两个方面,一是表达对象,二是对象的表现,前者是“什么”,后者是“怎么样”。作用者A、对象B语义块是表达对象,内容C、特征E语义块是表现。在表达对象中,B是一般表达对象,A是表达对象中的特殊对象;在表现中,E是一般表现,C是特殊表现。一个句子至少由一个对象语义块和一个表现语义块构成,但更为常见的结构是:两个对象语义块加一个表现语义块,一个对象语义块加两个表现语义块,两个对象语义块加两个表现语义块,还可以是多个对象语义块加多个表现语义块。所以,所谓“一个句子只有一个中心动词”的语法规范与语言表达的需要并不协调。
为什么E语义块叫做特征语义块呢?因为一个句子的基本语义信息就蕴涵在E语义块中。那么,什么是基本语义信息呢?它来源于作用效应链思想。一个句子总是对作用效应链的某一或某些环节的表达,所谓一个句子的基本语义信息就是指它所表达的关于作用效应链的某一或某些环节的信息。这样,作用效应链的6个环节自然就是基本语义信息的分类标准,因而也是E语义块的分类标准。不同类别的E语义块构成不同类别的句子,从而引入了句类的概念。HNC的句类是句子的语义类别,与传统的句类是完全不同的概念,后者指陈述句、祈使句、疑问句和感叹句,基本上是句子的语用分类。p9参照概念比较集粹
只表达作用效应链的一个环节的句类称为基本句类,表达两个或多个环节的句类称为混合句类。 E语义块的命名与作用效应链6个环节的名称相一致,即作用、过程、转移、效应、关系、状态。由这些E语义块构成的句子,分别命名为作用句、过程句、转移句、效应句、关系句和状态句。
E语义块的核心部分一定是动词,而且,不同类别E语义块的动词来源于不同的基元概念。E语义块的分类标准,也就是句类的分类标准。这个标准是与三大语义网络密切关联的,它实际上也就是HNC理论层次网络符号体系设计的基本标准之一。这样,E语义块的辨识信息,或者说句类的辨识,就是明确无误地蕴涵在概念层次网络符号体系之中。
由于判断是人类思维活动的基本内容,也是语言表达的基本内容之一,我们据此以定义了一个句类:判断句。根据作用效应链定义的6个句类加上判断句,构成HNC的7个基本句类。每一个基本句类又分为若干个子类,子类的定义与相应基元概念网络的二级节点相对应。子类之下还可以再分子类。
基本句类可以构成混合句类。所谓混合句类,是指两个以上的基本句类在一个句子中共现,诸如作用效应句、过程转移句、状态判断句等。自然语言的句子是丰富的、复杂的,但它们表达的信息总是由7个基本句类组成的,这正是基本句类之所以称为“基本”的原因。在自然语言中,基本句类的混合往往(或者说主要)是两两混合,因此,混合句类理论上应有5*6+6=36个。“5*6”是与作用效应链相对应的6个基本句类的两两混合,“+6”是它们与判断句的混合。
上面说明了语义块和句类的概念,它们之间是什么关系呢?一句话:语义块是句类的函数。这就是HNC语义块和句类理论的基本论点。解说:对于集合X中的任一元素x,集合Y中存在唯一的元素y与x对应,即由X映射到Y有唯一的值,则称Y为X的函数,记作y=f(x);若y的反函数x=f'(y)同时成立,即集合X、Y之间存在一一对应关系,则称X为Y的函数或Y为X的函数均可。HNC中,语义块在一个句子中的有无、个数和具体内涵随句类的不同而不同,即句类是自变量,句类决定语义块的类型,故称语义块构成类型(句类数学表示式)是句类的函数;而直观地,E语义块决定着句类,即E语义块的分类标准也就是句类的分类标准,从句类辨识角度看,应该称句类是E语义块的函数。由此,语义块与句类基本构成一一对应关系,谁是谁的函数都无所谓。
E,A,B,C四种语义块是抽象概括的结果,它们在一个句子中的有无、个数和具体内涵随句类的不同而不同。这就是“语义块是句类的函数”所概括的内容。例如,拿作用者语义块A来说,作用句中的A语义块是“产生影响者”,类似于一般所说的施事者,而转移句中的A语义块是转移的发出者,过程句、关系句和状态句中则不涉及A语义块。再如对象语义块B,作用句和效应句中的B语义块是“被影响者”或“接受者”,类似于一般所说的受事,过程句、关系句和状态句中的B语义块是过程、关系、状态的体现者或承受者,而关系的体现者显然有两个,即关系的双方,它们都是B语义块,彼此之间不存在施事和受事的关系。在转移句中,B语义块是转移的接收者,而转移“物”则是转移的内容,即C语义块。
我们把“语义块是句类的函数”具体体现为句类格式。句类格式是指一个句子的主语义块的排列顺序,例如作用句必须有三个主语义块:作用者A、作用X(即E语义块)和作用的对象B,三者的排列顺序不外乎6种:A+X+B,B+X+A,B+A+X,A+B+X,X+A+B,X+B+A。选择这6种格式的哪一种作为标准格式,不同语种间存在着差别,比如汉语和多数印欧语都采用第一种格式。标准格式中蕴涵着主语义块类别的辨识信息。
7种基本句类和36种混合句类的提出为语句深层结构的表达提供了简明而完备的手段,所谓深层结构就有了计算机可操作的数学表示式。例如:p10参见HNC句类示例1
句类 | 句类物理表示式 | 例句 | |
作用句: | XJ=A+X+B | 张三打断了李四的腿。 | |
过程句: | PJ=PB+P | 李四的腿伤大有好转。 | |
转移句: | TJ=TA+T+TB+TC | 李四的朋友电告李四父母这个好消息。 | |
效应句: | YJ=YB+Y+YC; | 李四养好了腿伤。 | |
YBC+Y | 李四的腿伤养好了。 | ||
关系句: | RJ=RB1+R+RB2; | 张三失去了他多年的女友。 | |
RB+R | 张三跟他多年的女友吹了。 | ||
状态句: | SJ=SB+S+SC; | 张三穿着皮大衣。 | |
SB+S; | 张三升官了。 | ||
SB+SC | 张小姐很漂亮。 | ||
判断句: | DJ=DA+D+DBC | 张三认为李四不该那样做。 | |
反应句 | (作用句的子类): | X2J=X2B+X2+XBC+(X2C) | 张先生怕李小姐发脾气。 |
基本状态句 | (状态句的子类): | S00J=SB+S00+SC; | 主席团坐在台上。 |
SC+S00+SB | 台上坐着主席团。 | ||
作用关系句 | (混合句类): | XRJ=A+XR+RB | 张三挑拨李四和我的关系。 |
关系作用句 | (混合句类): | RXJ=RB1+RX+B | 张三多次帮助过李四。 |
这些表示式就是计算机赖以进行语句联想操作的基础。表示式中的每一项代表一个主语义块,这些主语义块的语义角色由该项的命名符号所唯一确定,它们是引发全局联想脉络的激活因子。
EABC语义块在形式上似乎与传统语言学的主谓宾补相对应,其实它们是完全不同的概念,有着本质的区别:EABC是语义层面的概念,是语言深层的描述量,它们是句类的函数,但与句子的格式无关;主谓宾补是语法层面的概念,是语言表层的描述量,它们与句类无关,但与句子的格式息息相关。EABC语义块和主谓宾补是从不同层面或角度对句子的结构提出分析的模式,不能相互代替。参照概念比较集粹
最后,简单叙述一下EABC概念的形成过程,这对于加深对这一概念的理解或许有所裨益。与主谓宾补相联系,语法学还有动词的及物和不及物以及双宾语等概念。但及物性的具体表现,仅在语法层面进行研究十分困难,它涉及宾语的分类问题,有的及物动词要求双宾语,有的不仅要求宾语,还要求补语。这些问题都必须进入语义层面,才能给出明确的答案。从理解来说,仅有及物的概念是远远不够的,重要的是:它“及”什么样的“物”?开始的时候,曾以为这只是语汇层面的特征,后来才发现不是这样,它也是概念层面的重要特征,这一发现导致“语义块是句类函数”概念的形成。但应该说,是格语法理论的创立者菲尔墨最先想到了这一点,他是对宾语和主语进行语义分类的第一位先行者。可惜他的理论匆忙出台,在理论总体性和层次性方面都比较欠缺。现在看来,主语和宾语的语义分类必须用ABC函数的概念,即将语义块作为句类的函数来处理才能给出完善的表述。至于双宾语,它p11一定是转移型概念,而同时要求宾语和补语的一定是作用效应型概念。
上文介绍的两个联想脉络是HNC理论的基础部分,它的另一部分内容是自然语言理解的框架和具体实践。
HNC理论走向应用的第一步是语义块感知和句类辨识。语义块感知就是找出一个句子中的各个语义块,句类辨识就是通过感知得到一个句子的E语义块,进而确定这个句子所属的句类。计算机能否感知到语义块关系到HNC能否指导实践、是否有应用价值的问题,张全的博士论文(张全1996)对此做了肯定的回答。感知到语义块、辨识出句类以后,就可以运用句类知识对句子进行理解处理,这称为句类分析。在句类分析过程中,句类知识起着全局性的指导作用,主要有四方面的知识:一是句类格式知识,二是语义块构成知识,三是语义块之间的概念关联知识,四是语义块和句类的转换知识。语义块感知和句类辨识主要运用局部联想脉络,句类分析主要运用全局联想脉络,当然,处理过程中这两个联想脉络的运用不是截然分开的。
以句类分析为基础,HNC设计了自然语言处理系统的基本框架,这个框架由9个模块组成:1、单音词感知模块;2、语义块感知模块;3、句类分析模块;4、合理性分析模块;5、短时记忆知识模块;6、语境生成模块;7、隐藏知识提示模块;8、要点主题分析模块;9、短时记忆向长时间记忆扩展的模块。目前,部分模块已在计算机上得到实现。
自然语言处理离不开知识库,对知识库的设计和建立也是HNC理论的重要组成部分。人工智能早期一系列挫折,使人们认识到知识的重要性。要使计算机表现出智能,唯一的办法就是使它拥有并运用知识。正是这一认识促成了20世纪70年代到80年代的“专家系统热”,并取得了引人注目的成就。但这些专家系统的知识,都是局限于特定的领域,而一般自然语言理解(不包括特定领域的简单语言应用系统)所需要的知识则完全不同于通常的专家系统。它需要各种各样的知识,但可以分为三大类:概念知识、语言知识、常识及专业知识。前两类知识的本质区别在于:语言知识与具体语种有关,而概念知识与语种无关。把概念知识从语言知识中独立出来是势在必然的发展。把常识及专业知识独立出来对知识库的建立是非常方便和有力的,这一点不言而喻参见人工智能点评。我们已经建立了比较完备的概念知识库,目前正在紧张地进行汉语语言知识库的建立。我们曾建立过地理知识库,使用效果很好,所以具有建立常识及专业知识库的成功经验,但常识及专业知识库的建立目前还不是自然语言理解处理的迫切任务。
自然语言理解处理的进展必须由信息处理工作者和语言研究者共同推动。令人高兴的是,在我国计算语言学前辈的推动下,这两方面力量开展联合研究的局面已开始形成,并初步组成了联合攻关的队伍。p12
主要参考文献
黄曾阳.1996.HNC理解处理论文选录.中国科学院声学研究所声场声信息国家重点实验室自然语言理解课题组
林杏光.1997.正确引导汉语理解与研究——事关人工智能开发的一个重要前提.科技导报,1997(4)
苗传江.1997.HNC理论的基本内容.中科院声学所“HNC知识库培训班”教材
张全.1996.基于HNC理论的语义块感知处理.中国科学院声学所博士学位论文
Chomsky N.1957. Syntactic Structures. Hague:Mouton
Chomsky N.1965. Aspects of the Theory of Syntax. Cambridge, MA:MIT Press
Fillmore C J.1968. The case for case. In: Bach E, Harms R eds. Universals in Linguistic Theory. New York:Holt,Rinehart and Winston
Qullian M R . 1986.Semantic memory.In: Minsky M Ed.Semantic Information Processing. Cambridge, MA: MIT Press
Schank R. 1973.Identification of conceptualizations underlying natural language. In: Schank R, Colby K Eds. Computer Models of Thought and Language. San Francisco, CA: W H Freeman and Company
Schank R. 1957a. Conceptual Information Processing, Amsterdam: North Holland
Schank R. 1957b. The structure of episodes in memory .In:Bobrow D, Collins A .eds.Representation and Understanding New York: Academic Press
Schank R. 1982. Dynamic Memory.New York:Cambridge University Press
Schank R. Abelson R.1997. Scripts,Plans,Goals and Understanding. Hillsdale,NJ: Erlbaum
* 本文发表于《中文信息学报》,Vol.11,No.4,1997。发表时该刊加有主编按语:《HNC理论概要》的作者黄曾阳先生创立的面向整个自然语言理解的理论框架,在语义表达上有自己的特色,在语义处理上走了一条新路。鉴于汉语语法研究尚有诸多困惑,HNC理论所走的以语义表达为基础的新路子对突破汉语理解问题尤其有实际意义。参见陈力为的题词