cs224笔记：Lecture 5 Dependency Parsing

最新推荐文章于 2024-03-24 11:00:05 发布

扬州小栗旬

最新推荐文章于 2024-03-24 11:00:05 发布

阅读量1.3k

点赞数 2

分类专栏： CS224n NLP with DL

本文链接：https://blog.csdn.net/weixin_37616971/article/details/101268479

版权

CS224n NLP with DL 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Dependency Parsing

Linguistic Structure: Denpendency Parsing(依存句法分析)

1 Two views of linguistic structure: Constituency structure, Dependency structure

Parse trees(解析树，语法分析树) 用于分析句子的语法结构(syntactic structure) ，主要有两种结构：constituency structures，dependency structures。

1.1 Constituency Structure

Constituency = phrase structure grammar = context-free grammars (CFGs)

Constituency grammar使用短语结构语法(phrase structure grammar)把单词组织成镶嵌的结构，在下面的章节会详细讲述这种结构，这节课主要关注Denpendency Parsing。

N(Noun)名词，NP(Noun Phrase)名词短语，Det(Determiner)限定词，prep(Preposition)介词，PP(Prepositional Phrase)介词短语，Adj(Adjective)形容词，verb(动词)，pronoun(代词)
$\begin{aligned} &\text{NP} \to \text{Det N} \\ &\qquad \text{e.g. the cat}\\ &\text{NP} \to \text{Det (Adj) N}\\ &\qquad \text{e.g. the large cat}\\ &\text{NP} \to \text{Det (Adj) N PP}\\ &\text{PP} \to \text{prep NP}\\ &\qquad \text{e.g. the large cat by the door} \end{aligned}$
例如下面的句子可以生成这样的结构，

the(Det) cat(N) by(prep) the(Det) large(Adj) crate(N)

1.2 Dependency Structure

句子的依存结构(dependency structure)表示了一个单词如何依赖于(修饰)另外的单词，这种单词间二元的非对称的(binary asymmetric)关系叫做依赖(dependencies)，使用箭头表示，通常这些依赖形成了一个树的结构。

在这里插入图片描述

2 Dependency Parsing

依存句法分析(dependency parsing)是指给定一个句子，分析它的语法依赖的机构，输出是一个依赖树(dependency tree)。

Dependency Grammar/Parsing的历史：

公元前五世纪，Panini的语法研究
20世纪，Constituency/context-free grammar，R.S. Wells(1947)然后是Chomsky
现代的做法来自于L.Tesniere(1959)

评估方法：UAS/LAS

2.1 Transition-based Dependency Parsing

依赖一个状态机(state machine)，定义从输入的句子到输出的依赖树的映射。

2.2 Greedy Deterministic Transition-based Dependency Parsing

来自Nivre[2003]的工作，转换依赖一个状态机(state machine)，包括状态(states) 和状态间的转换(transition)，模型包含从一系列从初始状态(initial state)到终结(terminal state)状态的转换。形式定义如下：

States:

对于任意句子 $S=w_0w_1...w_n$ ，一个状态可以用一个三元组表示 $c=(\sigma, \beta,A)$ 。其中 $\sigma$ 代表一个栈由 $S$ 中的单词组成， $\beta$ 代表一个缓冲区(buff)由 $S$ 中的单词组成， $A$ 代表一个表示依赖弧(dependency arc)的集合，形式如 $w_i,r,w_j)$ ， $w_i,w_j$ 来自 $S$ ， $r$ 描述一个依赖关系。
对于句子 $S$ 而言，初始状态为 $c_0=([w_0]_\sigma,[w_1,...,w_n]_\beta,\varnothing)$ ，即只有ROOT在栈 $\sigma$ 中，其他的单词都在缓冲区 $\beta$ 中，并且目前没有选出任何的动作。结束状态为这样的形式 $(\sigma,[]_\beta,A)$ 。

Transitions:

在状态间定义了三种transitions
1 $S H I F T$ : 移除buffer $\beta$ 中的第一个单词，把它压到栈 $\sigma$ 的顶部(buffer $\beta$ 非空)
2 $LEFT-ARC_r$ : 把一个依赖弧 $w_j,r,w_i)$ 添加到集合 $A$ 中，其中 $w_i$ 是栈顶第二个单词， $w_j$ 是栈顶的单词，然后把 $w_i$ 从栈中移除。(栈 $\sigma$ 至少要包含两个单词， $w_i$ 不可以是ROOT)
3 $RIGHT-ARC_r$ : 把一个依赖弧 $w_i,r,w_j)$ 添加到集合 $A$ 中，其中 $w_i$ 是栈顶第二个单词， $w_j$ 是栈顶的单词，然后把 $w_j$ 从栈中移除。(栈 $\sigma$ 至少要包含两个单词)

形式定义如下：
$\begin{aligned} &\text{1. } SHIFT \qquad & \sigma,w_i|\beta,A \to \sigma|w_i,\beta,A \\ &\text{2. } LEFT-ARC_r \qquad & \sigma|w_i|w_j,\beta,A \to \sigma|w_j,\beta,A\cup\{r(w_j,w_i) \}\\ &\text{3. } RIGHT-ARC_r \qquad &\sigma|w_i|w_j,\beta,A \to \sigma|w_i,\beta,A\cup\{r(w_i,w_j) \} \end{aligned}$

2.3 Neural Dependency Parsing

这种模型性能和效率都要优于传统的方法，和先前的模型最大的区别就是它依赖于稠密(dense的特征表达而不是稀疏的(sparse)，

Feature Selection：

针对模型的复杂性，可以灵活的选取神经网络的输入特征，给定一个句子S，可供选择的特征类型如下：
$S_{word}$ : 句子S中一些单词的向量表示(vector representations)
$S_{tag}$ : 句子S中一些单词的Part-Of-Speech(POS)标签
$S_{label}$ : 句子S中一些单词的arc-label，这些arc-label用于描述依赖关系

对于任意一个特征类型都有相应的嵌入矩阵(Embedding Matrix)，用于把one-hot的编码映射成d维稠密向量表示(d-dimentional dense vector representations)。对应 $S_{word}$ 的嵌入矩阵为 $E^w\in \mathbb{R}^{d\times N_w}$ ，其中 $N_w$ 代表词典(vocabulary)的大小，相应 $S_{tag}$ 的为 $E^t\in \mathbb{R}^{d\times N_t}$ ，相应 $S_{label}$ 的为 $E^l\in \mathbb{R}^{d\times N_l}$ ，其中 $N_t$ 代表不同POS标签的个数， $N_l$ 代表不同arc-label的个数。