文章目录
一、依存句法分析
L. Tesnière 的理论认为:
一切结构句法现象可以概括为关联(connexion)、组 合(jonction)和转位(tanslation)这三大核心。句法关联建立起词与词之间的从属关系,这种从属关系是由支配词和从属词联结而成; 动词是句子的中心,并支配其他成分,它本身不受其他任何成分的支配。
欧洲传统的语言学突出一个句子中主语的地位,句中其它成分称为“谓语”。依存语法打破了这种主谓关系,认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。
依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。处于支配地位的成分称为支配者 (governor,regent, head),而处于被支配地位的成分称为从属者(modifier, subordinate, dependency)。
Tesnière 还在《结构句法基础》中将化学中“价”的概念引入依存语法中。“价” 亦称“配价”或“向” (英文valence/ valency),一个动词所能支配的行动元(名词词组)的个数即为该动词的价数。也就是说,它能支配几个行动元,它就是几价动词。如汉语中的零价动词:“地震、刮风”;一价动词:“病、醉、休息、咳嗽、游泳”等;二价动词:“爱、采、参观、讨论”等;三价动词:“给、送、告诉、赔偿”等。
二、语法体系
句法分析需要遵循某一语法体系,根据该体系的语法确定语法树的表示形式,如:
(1)西门子将努力参与中国的三峡工程建设。
(2)北京 是 中国 的 首都
1、短语结构语法
短语结构树由终节点、非终结点以及短语标记三部分组成。分局语法规则,若干终结点构成一个短语,作为非终结点参与下一次规约,直至结束。
2、依存语法
依存语法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。
依存关系用一个有向弧表示,叫做依存弧。依存弧的方向为由从属词指向支配词,当然反过来也是可以的,按个人习惯统一表示即可。
两个有向图用带有方向的弧(或称边,edge)来表示两个成分之间的依存关系,支配者在有向弧的发
出端,被支配者在箭头端,我们通常说被支配者依存于支配者。
3. 依存结构
图(f)是用树表示的依存结构,树中子节点依存于该节点的父节点。图(g)是带有投射线的树结构,实线表示依存联结关系, 位置低的成份依存于位置高的成份,虚线为投射线。
三、依存句法分析
1、概念
依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。
2、1970年计算语言学家J. Robinson在论文《依存结构和转换规则》 中提出了依存语法的4条公理:
(1)一个句子中只有一个成分是独立的
(2)句子的其他成分都从属于某一成分
(3)任何一个成分都不能依存于两个或两个以上的成分
(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分
(5)中心成分左右两边的其他成分相互不发生关系
这四条公理相当于对依存图和依存树的形式约束为:
- 单一父结点(single headed)
- 连通
- 无环
- 可投射(projective)
由此来保证句子的依存分析结果是一棵有“根“的树结构
3、投射与不可投射
4、标注关系
5.依存句法分析算法
目前依存句法结构描述一般采用有向图方法或依存树方法,所采用的句法分析算法可大致归为以下4类:
1. 生成式的分析方法(generative parsing)
2.判别式的分析方法(discriminative parsing)
3.决策式的(确定性的)分析方法(deterministic parsing)
4.基于约束满足的分析方法(constraint satisfaction
parsing)
6、决策式的(确定性的)分析方法
6.1 基本思想
模仿人的认知过程,按照特定方向每次读入一个词。每读入一个词,都要根据当前状态做出决策(比如判断是否与前一个词发生依存关系)。一旦决策做出,将不再改变。所做决策即“采取什么样的分析动作(action)” 。分析过程可以看作是一步一步地作用于输入句子之上的分析动作(action)的序列.
6.2 移进-归约算法
J. Nivre等(2003)提出的自左向右、自底向上的分析算法:当前分析状态的格局(configuration)是一个三元组:
(S, I, A), S, I, A分别表示栈顶词、 未处理序列中的当前词(Input)和依存弧集合(Arcs)。: 分析体系主要包含
两种分析动作组合, 一种是采用标准移进-规约方式,使用Left-Reduce、 Right-Reduce 和 Shift 三种动作。
上面这个将词移到左端的stack 中进行归约,而下边是两边都可以进行归约,且移到控制的那一端进行归约
**6.3 Arc-eager 分析算法
7 短语结构可转换为依存结构
实现方法:
(1) 定义中心词抽取规则,产生中心词表;
(2) 根据中心词表,为句法树中每个节点选择中心子节点;
(3) 将非中心子节点的中心词依存到中心子节点的中心词上,得到相应的依存结构
Vinken will join the board as a nonexecutive director Now 29
句子“我喜欢这本书。 ”的短语结构树如下:
依存句法分析器性能评价
无标记依存正确率(unlabeled attachment score, UA):
所有词中找到其正确支配词的词所占的百分比,
没有找到支配词的词(即根结点)也算在内。
带标记依存正确率(labeled attachment score, LA):
所有词中找到其正确支配词并且依存关系类型也
标注正确的词所占的百分比,根结点也算在内。
依存正确率(dependency accuracy, DA):所有非根
结点词中找到其正确支配词的词所占的百分比。