cs224n学习笔记L5: Dpendency Parsing

课程安排

  • 语法结构:一致性和依赖
  • 依赖语法和treebanks
  • 基于Transition的依赖解析
  • 基于神经网络的依赖解析
  • 作业3使用pytorch构建依赖解析模型

一、语法结构

1.1 CFGs(上下文无关文法)

短语结构语法==context-free grammars
词结合成短语->短语构成更大的短语, 并且短语有词性分类。
按照一定的词性规则构建语言表达。如限定词+名词短语+状语…。从而我们可以按照一定的规则推导一个句子,生成一颗语法树。

1.2 依赖结构表示句子中的词语其他词的依赖关系

动词作为句子的root, 箭头从一个词指向修饰它的词。
在这里插入图片描述
在这里插入图片描述

1.3 为什么要解析句子的结构

  1. 正确的解析语言依赖结构是理解语义的基础
  2. 人类通过将单词组织成短语从而表达更复杂的语句
  3. 我们需要知道这些短语是如何相互连接、按照什么规则连接

例如下面具有二义性的句子,通过不同的解析,表达不同的语义(编程语言不会有这样的二义性):
在这里插入图片描述
依赖解析中的一个关键就是决定各种句子成分是修饰哪一个成分,比如下面这个句子需要有相关的背景知识才能正确的进行依赖解析:
在这里插入图片描述

1.4 依赖解析

对句子中的每个词,选择它是哪个词的依赖。通常有以下限制条件,从而使依赖成为一棵树:

  • 只有一个词是ROOT的依赖
  • 不存在环
    最终的问题是这些箭头能否交叉

1.5 标注数据项目:universal dependencies treebanks

项目地址: http://universaldependencies.org(可能需要代理)
起初,建立treebank似乎不如建立一个语法来得快,但treebank带来了如下回报:

  • 重复使用劳动力
  • 广泛覆盖(多组织、多语言)
  • 利于机器学习使用

1.6 Greedy transition-based parsing

这个解析器通过一系列的自底向上的方式进行。(编译原理的语法解析器:移位-规约)
与编译器中不同的是,这里要将规约操作替换为左弧规约和右弧规约(弧就是箭头)
在这里插入图片描述
在这里插入图片描述
可以看到这里面的关键是决定每一步的操作是移位还是左弧规约、还是右弧规约,这可以看做一个预测问题,使用机器学习来解决。 由于每个词只会有一个依赖,所以依赖解析的评价指标:
A c c = c o r r e c t − a r c s t o t a l − w o r d s Acc = \frac{correct-arcs}{total-words} Acc=totalwordscorrectarcs

1.7 神经网络依赖解析器

传统方法的缺点:

  • 特征稀疏
  • 特征不完整(每次预测只用到了句子中很局部的特征)
  • 计算代价高
    对应的,神经网路方法有更好的准确率和超级高的效率

1.7.1 特征选择

给定一个句子S, 应该包含以下特征:

  • 句子中的词向量( σ \sigma σ β \beta β两个栈顶词)
  • 词性pos-tag向量P = {NN, NNP, NNS, DT, J J, …}
  • 弧的类型标签arc-label向量L = {amod, tmod, nsubj, csubj, dobj, …}

以上三类向量构成三个embedding矩阵 E w ∈ R d × N w E_w ∈ R^{d×N_w} EwRd×Nw E t ∈ R d × N t E_t ∈ R^{d×N_t} EtRd×Nt E l ∈ R d × N l E_l ∈ R^{d×N_l} ElRd×Nl,通过embedding的方法获取每一次使用的特征向量。
在这里插入图片描述

1.8 UAS 和 LAS

  • UAS: Unlabeled Attachment Score, 指不对依赖关系进行分类的正确率评价指标
  • LAS: Labeled Attachment Score, 指对依赖关系进行分类的正确率评价指标

Attachment在这里表示词与词之间的依赖关系箭头标注。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值