大纲
- 句法分析及其难点;
- 句法分析相关数据和技术;
- 基于Stanford Parser的句法分析实战
6.1 句法分析概述
-
句法分析(Parsing)定义
从单词串获取句法结构的过程,实现该过程的工具或程序叫做句法分析器(Parser)。分为完全句法分析和局部句法分析,完全句法分析以获取整个句子的句法结构为目的,而局部句法分析只关注局部成分,依存句法分析即为局部分析法的一种;
-
句法分析难点
- 歧义
- 搜索空间
-
方法分类
-
基于规则
处理大规模真实文本时,存在语法规则覆盖有限、系统可迁移差等问题;
-
基于统计
最典型的是PCFG(Probabilistic Context Free Grammar),本质是一套面向候选树的评价方法,给正确的句法树赋予一个较高分值不合理的句法树赋予一个较低分支,从而借用分值进行消歧;
-
6.2 句法分析的数据集与评测方法
-
树库
- 英文:英文宾州树库(Penn TreeBank,PTB),前身为ATIS(Air Travel Information System)和WSJ(Wall Street Journa)
- 中文:中文宾州树库(Chinese TreeBank,CTB)、清华树库(Tsinghua Chinese TreeBank,TCT)、台湾中研院树库(Sinica TreeBank);
::: hljs-center
:::
-
评测方法
主要考虑满意度和效率两方面的性能,目前流行的是PARSEVAL评测体系,主要指标有准确率(分析正确的短语个数在句法分析结果中所占比例,即分析结果中与标准句法树相匹配的短语个数占分析结果中所有短语个数的比例)、召回率(分析得到的正确短语个数占标准分析树全部短语个数的比例)、交叉括号数(分析得到的某一短语覆盖范围与标准句法分析结果的某一短语的覆盖范围存在重叠而不存在包含关系,从而构成一个交叉括号);
6.3 句法分析的常用方法
-
基于PCFG的句法分析
一种生成式的上下文无关文法的扩展,短语结构文法表示为五元组(X,V,S,R,P):
- X:有限词汇的集合(词典),其元素称为词汇或终结符;
- V:有限标注的集合,称为非终结符集合;
- S:文法的开始符号,包含于 V V V,即 S ∈ V S\in V S∈V;
- R:有序偶对 ( α , β ) (\alpha,\beta) (α,β)的集合,即产生的规则集;
- P:每个产生规则的统计概率;
-
PCFG可解决的问题 :
- 计算分析树的概率值;
- 对于有多个分析树的句子,可依据概率值对所有分析树进行排序;
- 用于句法排歧,在多个分析结果中选择概率值最大的;
-
PCFG的三个基本问题
- 给定上下文无关文法 G G G,如何计算句子