自然语言处理7——句法分析

河篱

已于 2024-10-23 21:19:48 修改

阅读量1.1k

点赞数 22

分类专栏：自然语言处理文章标签：自然语言处理人工智能

于 2024-10-16 23:20:42 首次发布

本文链接：https://blog.csdn.net/weilexiao/article/details/142994021

版权

自然语言处理专栏收录该内容

11 篇文章

订阅专栏

自然语言处理7——句法分析

文章目录

自然语言处理7——句法分析

概念

句法分析是语言处理的瓶颈之一：大部分句子不符合语法结构，存在各种语法歧义；下游的任务离不开句法分析。

输入：句子输出：合乎语法的句法结构

分类：

短语结构分析
- 完全句法分析：根据输入的句子，给出完整的句法分析树
- 浅层句法分析（局部句法分析）：给出很浅层的句法分析树
  
  输入的句子可能是比较随性的，构造的分析树就容易出错，规则不一定覆盖所有的语言现象，有些应用不需要一个完全句法分析树，只需要告诉哪些词可以作为一个组块
依存句法分析

难点：一个句子对应多种句法分析树；汉语的词类和句法成分不存在一一对应的关系

资源：宾州树库；清华中文树库等

句法分析器

输入：词序列输出：句法分析树

本质：线性序列->非线性序列

句法分析树的理解：

给定一个句子得到一个句法分析树，将词与词的关系、词的语法角色标识清楚
不知道某个词的语法角色，但是知道它属于什么短语

方法

语言文法：四元组： $G = (V_N,V_T,R,S)$ ，描述的是什么语言现象能被什么语言现象所表示，如：句子能由NP+VP进行表示。

$V_N$ ：非终结符的集合，表示句子结构分析的中间成分。
$V_T$ ：终结符集合，相当于词汇表。
$R$ ：规则集，形式： $\alpha -> \beta$ ，其中 $\alpha$ 必须要有非终结符的出现。
$S$ ：初始符号，代表语言的句子。

基于PCFG（概率上下文无关文法）概率统计的分析方法

用标注好的语料库训练CFG文法，从而给出句法分析树

把规则上加上概率，对每条规则，记录它的概率，即它出现的频率

约束：规则左侧相同的概率加起来=1

求一棵树的概率：

基本假设：

位置无关：子树的概率与构成子树所在的位置无关
上下文无关：子树的概率与子树之外的词无关
祖先无关：子树的概率与子树外的节点无关

句法分析树概率 = 该分析树上所有规则的概率之积（选择概率最大的句法分析树）

句子概率 = 该句子的各种句法分析树的概率之和（可用于评价构建的是否好）

规则概率估计

步骤：

编写语言规则
构建树库
在树库上统计该规则及其非终结符的频率， $P(A->\alpha) = \frac{c(A->\alpha)}{c(A)}$

基本问题

给定文法G，计算由G生成句子S的概率

相当于给定HMM模型，计算生成观察序列的概率

用于评价文法好不好，若好，则文法生成句子的概率很高

方法：采用动态规划算法，将句法分析树的概率计算转化为句法分析树的子树的概率计算

向内算法：

算 $w_i....w_j$ 子串的概率

在这里插入图片描述

向内变量： $\alpha_{ij}(A) = P(A->w_i...w_j) = P(w_i...w_j|A)$

递推公式：

$\alpha_{ii}(A) = P(A->w_{ii})$

$\alpha_{ij}(A) = \sum \limits_{B,C \in V_N} \sum \limits_{i\leq k \leq j}p(A->BC)\alpha_{ik}(B)\alpha_{(k+1)j}(C)$

其中B，C可能有很多组合，所以要进行累加

步骤：

初始化： $\alpha_{ii}(A) = P(A->w_{ii})$ 词性概率
归纳计算，j从1到n，i从1到n-j，重复 $\alpha_{i,i+j}(A) = \sum \limits_{B,C \in V_N} \sum \limits_{i\leq k \leq j}p(A->BC)\alpha_{ik}(B)\alpha_{k+1,i+j}(C)$ 计算句法子树概率
结束：句子生成概率： $\alpha_{1,n}(S)$

寻找句子S的最优句法分析树

方法：采用动态规划算法，将句法分析树的概率计算转化为句法分析树的子树的概率计算

Viterbi算法：

建立一个向内变量，向内变量的递归运算取最大值，同时维护一个指向上一步的最大值

步骤：

初始化： $\alpha_{ii}(A) = P(A->w_{ii})$ 词性概率
动态规划，j从1到n，i从1到n-j，重复 $\alpha_{i,i+j}(A) = \max \limits_{B,C,k}p(A->BC)\alpha_{ik}(B)\alpha_{k+1,i+j}(C)$ ，维护一个指向上一步最大值的指针
结束： $P(t^*) = \alpha_{1,n}(S)$ ， $t^*$ 的根节点为S，同时指针回溯得到S的最优树结构

模型参数训练问题

没有训练语料库如何得到文法G

向内向外算法（EM算法）：

随机地给一个参数值得到一个语法，根据文法和训练语料，得到语法规则使用次数的期望值，以期望次数用最大似然估计得到语法参数新的估计值，得到新的语法，由得到的新语法得到使用次数期望值，重新估计语法参数。

向外算法：

自顶向下

向外变量：非终结符A的外部概率，即根据文法从A推出词串 $w_i....w_j$ 的上下文的概率 $\beta_{ij}(A) = P(w_1...w_i-1Aw_j...w_n|S)$

在这里插入图片描述

步骤：

初始化
$\begin{aligned} \beta_{1,n}(A) &= 1,A=S \\ &=0,A\neq S \end{aligned}$
归纳计算：j从n-1到0，i从1到n-j，重复计算 $\beta_{ij}(A) = \sum \limits_{B,C,j<k} \beta_{ij}(C)P(C->AB)\alpha_{j+1,k}(B) + \sum \limits_{B,C,h<i} \beta_{ij}(C)P(C->BA)\alpha_{h,j-1}(B)$