句法分析(syntactic parsing)的任务就是识别句子的句法结构(syntactic structure)。
线图分析法
概念:
线图是一组节点(node)和边(edge)的集合
节点:对应着输入字符串中的字符间隔
边:<起点.终点.标记>
其中标记为非终结符或终结符
问题:
如何从输入串开始,一步步形成chart,使得存在一条边可以覆盖全部节点,并且边上标记为S?
基本数据结构:
1) chart
2) agenda
3) active arc
agenda是栈结构,存放等待加入到chart中的边
active arc存放当前分析状态
char算法的过程描述:
1) 将待分析字符串w置入缓冲区,agenda清空。
2) 循环,反复执行下面步骤,直至输入缓冲区和agenda均为空
a) 若agenda为空,则从输入缓冲区取一个字符,并把该自如及其起始位置(P1,P2)推入agenda栈;
b) 从agenda中弹出栈顶的变,该边的起始位置为(P1,P2),边上标记为L;
c) 检查规则集中的规则,对所有形如A->L·β这样的规则,在active arc集合中增加一条起始位置为P1,P2,弧上为A->L·β这样的点规则;
d) 把从agenda中弹出的标记为L的边,加入到chart中的P1,P2之间;
e) 检查所有active arc,如果存在起始位置为P0,P1,且弧上点规则为A->α·Lβ的active arc,就增加一条新的active arc,起始位置为P0,P2,弧上点规则为A->αL·β
f) 如果一条active arc(起始位置为P0,P2)上点规则形如A->αL·,就将起始位置为P0,P2,边上标记为A的边压入agenda栈。
一个例子:
Chart parsing评价:
优点:
算法简单,容易实现,开发周期短
弱点:
算法效率低,时间复杂度为K*n*n*n(n为句子长度,K为常量);
需要高质量的规则,分析结果与规则质量密切相关;
难以区分歧义结构。