基于中文的自然语言理解初探

 
基于中文的自然语言理解初探
( 录稿于2006年 10 月份在中国海口召开的当代电子技术第十届机械人学习会议 ) 
(在2007年3月15日出版的《现代电子技术》第6期上(82页开始)刊登)
1  中文语义分析层面的有关理论分析
1.1  语义场理论 (Semantic Field Theory)
语义场是德国学者J.Trier在20世纪30年代首次以语义网络形式构成的一种虚化的非物质的空间区域。他认为语义场可看作是介于单个词和整体词汇之间的一种存在形式。
义位是以词义中的指称意义为基础,辅以附加意义形成的。是语义系统中能独立存在的基本语义单位。一个词是否为义位,可看它的指称意义能否独立。一个语义场可以作为另一个语义场的子场,语义场及语义场之间具有层次性和相关性。语义场理论研究不同义位在语义场中的相互作用。
语义场引申出来的关系语义场是由语义系统中的一组相关联的义位组成的,是具有一定共同特征的聚合体。它试图从语言现象出发进行自然语言的形式刻画。目前划分关系语义场的研究方法,包括lambda-演算,特征逻辑(Feature logic),篇章表述理论(Discourse Representation Theory, DRT),语言信息的动态理论(Dynamics of Nature language),范畴理论等,使得计算机分析语义成为可能。
通常语义场可划分为动态义场和静态义场。二者的关系如表1.1所示:
         静态语义场    动态语义场
义位关系    聚合关系      组合关系
语义层次    词汇层面      句子层面
智能形式    概念、判断     归属
理论归属      语言         言语
表1.1 动态和静态语言场比较
因为汉语集字成句,其语义分析重点在于用关系语义场理论分析句子中所有词的关系。 用语义场合理组织中文信息处理的实用系统会更便利。
1.2  义素分析理论(Seme Analysis Theory)
义素分析是上世纪50年代美国人类学家用来研究不同群体亲属词语关系的一种方法。由于其在语言学方面的科学意义和实用价值,渐成为欧美现代语义学的一个基本方法。80年代义素分析理论引入我国,在中文自然语言理解语义分析层面上占了一席之地。该理论认为由词的义位可以分析提取出更小的语义成分即义素。义位不再是语义构成的最小单位。每一个义位都是由义素组合而成的义位束。义素是义位的分析产物,是分析后提取出来的语义标志。
义素分析法是将同属一个语义场的一些词放在一起 从意义上对这些词的义位进行对比分析 找出它们所包含的义素。义素分析是对语义场理论的拓展与深化。
义素分析法在汉语自然语言语义研究中有独到之处。首先义素分析将词义的分析深入到了更微观的层面,词义分析与描写更加清晰,语义研究更加精密,因而也使得语义研究进入了一个新的境界。其次义素分析反映出了语义的系统性,义位间的区别和联系也更加的明确。
有义素分析和语素形式结合,义素分析与汉字的字形结构结合两种义素分析方法。
1.3  我们基于类型论的系统建设
    我们06年的工作是在04,05年的分词系统基础上进行语义分析实现。本课题共5名同学。系统先对输入文本自动分词,再进行句法分析和语义分析,同时检测和消解大部分歧义。已实现预期目标。
在我们建立的自动汉语分词系统中,语义场理论和义素分析理论在构架词库的过程中起到了核心的作用。 词库搭建的好坏,直接关系系统的整体性能。在词库的存储方式上,即要考虑自动分词查找匹配词条的时间尽可能短以提高访问速度还要减少存储空间。在词条的组织上,要求能够将词条分类,灵活地访问某一类词条,同一语义场内的不同义位间、不同语义场间的关系及词库维护的难易程度也必须考虑。我们将词库中同一语义场的不同义位的词条进行分类编号存储,对汉语词条的查询抛弃了以往基于 Hash 的方法,采用双数组与汉字机内码结合的新查询方式,每个汉字从唯一地从区位码映射到 1-6768 GB-2312 )的一个序列码,从而每个汉字串都可以唯一地映射到一个数字串,这样对于词语的查询 可以转化为基于数字串的查询, 有效的提高了检索速度。由汉字的 ASCII 码转换为数组元素的下标的具体实现函数如下:
Getid(string word)
byte[]array=System.Text.Encoding.Default.GetBytes(word);
return id=(array[0]-176)*94+(array[1]-161);
}
其中, id 对应汉字的下标, array[0] array[1] 是汉字两个字节的 ASCII 码。由下标求对应的汉字: array[0]=id/94+176 array[1]=id%94+161
为更深层次的分析语义打下基础。
分词及句法层语义分析的基本技术
2.1  自动分词处理
汉语自动分词是中文自然语言理解系统建设的第一个步骤。汉语的计算机理解,以词为基本单位,对句子进行切分后,在词的层面上进行理解,为后续的句法语义层面分析奠定基础。分词处理的问题实质上是如何高效、准确的界定汉语中的词与语素,词与词组。
在自动分词处理上要考虑三个问题:
(1)分词规范的界定。包括如何确立核心词表,如何收词,如何划分变形结构的词,怎样处理词缀问题等等。目前还没有统一的分词规范。
(2)高效的分词算法。已有的分词算法包括基于词表、基于理解和基于统计三种。其中基于理解的分词方法 是在分词的同时进行句法、语义分析,利用句法和语义信息处理歧义现象。由分词子系统、句法语义子系统、总控部分三部分组成。从我们的实践看基于理解的分词方法在推动自然语言理解上会有更广的前景。
(3)未登录词处理。 现有的解决方案大体可以分为两种 : 个别解决方案和一揽子解决方案。前者要针对专名未登录词 ,多采用建立专名资料库、利用上下文启发信息等基本方法。后者 原则上可以对各种类型的未登录词 进行分析,多采用 有穷多层列举法、结合词性标注等基本方法。
2.2 语句分析处理 
语句处理阶段是自然语言理解的核心部分。其主要任务是 对带有词类标记的汉语词语串,把不同的句法成分正确划分出来,确定不同的层次关系并进行句法标记。作为进一步的语义,语用和语境理解的基础。较普遍的句处理技术是基于的语法的简单模式匹配、基于规则方法等处理方法。 单纯依据语法的路线已难于有所突破,需要深入到语义层面。这次我们就是直接进入语义层
蒋严、潘海华的形式语义理论可称为类型理论。类型和范畴是其中的两个核心概念。类型递归地定义为:
a. e(个体)和t(真值)为基本类型。
b. 如果a、b各为类型,则(a→b)为类型。
范畴可看成是每个词汇向左或者是右寻找下一个词汇的方向。这成为程序行进的引导和内驱力。
语义分析愈精细会产生兼类过多和概括力不够以及歧义、模糊、不确定等困难。汉语表达式指称对象外延,未涉及内涵性质。逻辑句义框架下可分析词汇及其类别。类型论将汉语语句抽象成数学表达式,用以表示其内涵和外延,再把这些语义表示在计算机内进行处理,使汉语表达式与计算机数据结构之间直线联结,转变为汉语表达式——数学表示——数据结构三者的间接联结。
类型论不但可以揭示语句的逻辑结构,还可以帮助分析和生成句子,以简单的类型作为输入,“喂”给较复杂的类型,做肯定前件(modus ponendo ponens,简称MPP)运算,消去相同的类,得出新的类型。与此同时,这些类型依附的概念也随之组合起来,直到概念组成命题且语形组合成句子。
系统首先从单个词汇开始,利用类型逐个捆绑,完成句子分析。总算法基本流程如下:
(1)   如果输入串中没有符号或者类型为t(t表示句子,类型为t表示分析成功),分析结束。
(2)   判断输入串中是否含有特殊句型词,如“把”、“被”等,若有,转入特殊句型处理模块处理;若无,则顺序执行。
(3)   在输入串中查找类型最复杂的词,按某一方向查找符合肯定前件运算规则的简单类型,消去相同的类,得出新类型。
(4)   循环执行(3),直到在输入串中词的类型不能再消去。
(5)   转至(1),若不满足(1),则报错。
    基于类型论的句法语义分析模块的流程如下:
切分字串——前提验证——提取类型范畴序列——按复杂度找前提(有相等则从右起)——按前提范畴找其前件——存在,则按MPP,语形组合规则进行泛函贴合运算,反之则重新查找前提——生成原字串且类型为t,输出结果。
   句子语义分析的流程为:语句→切分→标注→句法分析→句法树→同构的语义树→逻辑公式→模型解释。从“切分”到“句法树” 建立“同构的语义树”,通过输出逻辑公式作出模型解释。
2 .3 存在的问题和进一步预期
问题和难点主要集中在词库建设上。词库是各种判别的起点和自学习的终点。以前借用了现成的词库。现在尝试并实现调用机内码的方式自己建立词库,问题和改进点还很多,而这些改进对于一个系统是牵一发而动全身。一直以来词库上的困顿触及到了一个核心问题:有没有一个标准的或者形式化的词库?最终的语义标准是什么?其最小粒度的数学语义是什么?
笔者已有的理论成果有:形容词的分类,比喻的实质,以及对语义的基于相位理论的语义描述。能回答上述问题(关于相位理论和语义解释将另文阐释)。但暂时该系统还不足以支持这些理论成果的验证和实现,系统还需要进一步生长才足以完备地实现更高级的语义分析。然理论和实践两个方向的进展并将会和与融合是令人鼓舞的。
小结
语言是自然界、社会和人的思维之间的特殊存在物。我们肯定地在语义空间把握语言和建设语言系统,这样将打破语种、领域等局限,进入更宏观的语义理解。已经实现的系统让我们看到语义的更精细结构和语义之间有丰富驱动之图景。
就自然语言理解的现状和笔者的研究体会在此强调如下两点:既要进行语义的彻底揭示,也要保护人类自然语言的活力。前者不够深入则不能良好地进行计算机实现;后者把握不好,将使语言精华流失,语言把握能力衰退。当计算机具篇章语义等高级处理能力时自然语言反而不自然了将是无法挽回的遗憾。上下求索的两个方面都需要把握好。这两极的平衡发展将深刻地促进人类更完备地认识语言及思维。我们正致力于此。
参考文献
[1]   蒋严、潘海华,形式语义学引论,中国社会科学出版社,1998
[2] 黄曾阳, HNC(概念层次网络)理论 ,北京:清华大学出版社 ,1998
[3]  张普,论语义场 ,北京语言学院
[4] 刘桂芳等,对义素分析及其困惑的几点言说,吉林师范大学,2005
[6]  赵川,形容词的实质和结构分析,计算机工程与应用,2002年第38卷
 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值