基于CYK+PCFG的短语结构句法分析

最新推荐文章于 2022-12-04 20:45:42 发布

曾经的广外男子

最新推荐文章于 2022-12-04 20:45:42 发布

阅读量9.4k

点赞数 34

分类专栏：自然语言处理文章标签： PCFG CYK 句法分析 CFG CNF

本文链接：https://blog.csdn.net/Chase1998/article/details/84504191

版权

自然语言处理专栏收录该内容

6 篇文章 9 订阅

订阅专栏

1 概述

句法分析是自然语言处理中的关键技术之一。其基本任务是确定句子的句法结构(syntatic structure)或句子中词汇之间的依存关系。形式语法理论的目的是试图用精确的数学模型(形式语言)来刻划自然语言。句法分析根据形式语法的不同可以分为基于短语结构语法的句法分析和基于依存关系语法的依存句法分析。本篇文章将介绍使用CYK(一种自底向上的动态规划算法)+PCFG(概率上下文无关文法)的基于短语结构语法的句法分析。

2 理论描述

2.1 CFG（上下文无关文法）

形式语法G = < $V_N$ , $V_T$ ,R,S>

$V_N$ 非终端语符集(辅助词汇的有限集合) ，如{S, NP, VP, ART, N, V}
$V_T$ 终端语符集(基本词汇的有限集合) ，如{the, a, boy ,sees , cat, dirty}
R 一组由有限个重写规则组成的规则集，如{ VP→V NP, ART → the|a, …}
S 表示起始符

句子：由语法 $G_0$ 从起始符S可派生出来的终端语符列构成由 $G_0$ 生成的句子。

语言：所有由语法 $G_0$ 从起始符S可派生出来的终端语符列构成 $G_0$ 生成的语言。

2.2 PCFG（概率上下文无关文法）

PGFG在GFG的基础上引入了P，加上了每个规则的概率。

PCFG中定义一棵句法树的概率为所有用到的规则概率的乘积，一般来说，概率值大的更可能是正确的句法树。

我们可以利用句子S的所有可能的句法分析树来统计句子的概率:

$P(S)=\sum_{t=1}^{T}P(S,T)$

2.3 CNF（Chomsky Normal Form）

如果一个上下文无关文法的每个产生式的形式为：

A → BC或A → a，

即规则的右部或者是两个非终结符或者是一个终结符，则它是具有Chomsky范式的CFG。

任何CFG都可以转变成一个弱等价的 Chomsky范式语法。

2.4 CYK算法

给定一个句子s = $w_1$ , $w_2$ , …, $w_n$ , 和一个上下文无关文法PCFG，G=(T, N, S, R, P);

定义一个跨越单词 i到j的概率最大的语法成分π:

$π (i, j, X)$ (i , j ∈ 1…n , X ∈N)，

目标是找到一个属于 π [1 , n , S]的所有树中概率最大的那棵。

CYK算法用于PCFG下的句法分析：

基本定义：for all i=1,…,n, X ∈N

$π (i, i, X) = q (X \to w i)$ (if X → wi 没有出现在语法中，则定义q(X → wi )=0)
递归定义：for all i=1,…,n, j=(i+1),…,n, X ∈N

$π (i, j, X) = m a x (q (X \to Y Z) \times π (i, k, Y) \times π (k + 1, j, Z))$ (i≤k≤j−1)

3 详例描述

给定以下PCFG，实现句子“fish people fish tanks”最可能的统计句法树。
在这里插入图片描述

第一步：构造4*4矩阵。

根据CYK算法，每格Cell[i, j]包含了跨越单词i+1, j+1的所有语法成分（实际计算中下标是从0开始的）。

以Cell[1, 3]为例，Cell[1, 3]格中的成分分别为：(1,1)和(2,3)组成，(1,2)和(3,3)组成，包含了people fish tanks所有语法成分。

在这里插入图片描述

第二步：处理叶子节点中的单词。

在这里插入图片描述

第三步：根据叶子节点中单词的词性递归地找一元匹配规则。

以 $[0] [0]$ 中NP → N 0.14为例，0.14 = 0.7(规则集中NP→N) * 0.2( $[0] [0]$ 中的N→fish)。

在这里插入图片描述

第四步：处理非叶子节点。

根据PCYK算法π(i, j, X ) =max (q(X→YZ) × π(i, k, Y) × π(k+1, j, Z) )。

例如 $s c o r e [0] [1] = s c o r e [0] [0] \times s c o r e [0 + 1] [1]$ ，我们可以从规则集中找所有能够满足 $[0] [0]$ 和 $[1] [1]$ 的规则(NP → NP NP/ VP → V NP/ S → NP VP)，并再递归地找满足 $[0] [1]$ 的规则(S → VP)。

因为此时S→有两条规则，我们比较其大小，仅保留其对大概率的一条规则即可。

概率计算方法以 $[0] [1]$ 中的S → NP VP 0.00126为例，0.0126 = 0.9(规则集中的S → NP VP)* 0.14( $[0] [0]$ 中的NP → N 0.14) * 0.01( $[1] [1]$ 中的NP → N 0.14)。

$[1] [2]$ ， $[2] [3]$ 同理。

在这里插入图片描述

第五步：处理再上一层非叶子节点。

根据PCYK算法 $s c o r e [0] [2] = q (X \to Y Z) \times m a x (s c o r e [0] [0] \times s c o r e [0 + 1] [2], s c o r e [0] [1] \times s c o r e [1 + 1] [2])$ 。

我们知道，无论是 $[0] [0]$ + $[1] [2]$ 还是 $[0] [1]$ + $[2] [2]$ 都覆盖了前三个单词的路径，因此我们分别从 $[0] [0]$ 和 $[1] [2]$ ， $[0] [1]$ 和 $[2] [2]$ 找对应的匹配规则。再对结果找到对应 $[0] [2]$ 的一元规则。