《Speech and Language Processing》读书笔记——语法规则及其解析

本文是《Speech and Language Processing》读书笔记,重点讲解上下文无关语法(CFG)及其在句法解析中的应用,包括自顶向下和自底向上的解析方法,并简述了概率上下文无关语法(PCFG)以及CKY和Earley解析算法。
摘要由CSDN通过智能技术生成

《Speech and Language Processing》读书笔记——语法规则及其解析

1.摘要

本章主要介绍了:

  • 上下文无关语法(CFG)
  • 语法解析算法(CKY、Earley)

2.上下文无关语法(CFG)

句法分析是NLP中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。 那么就引出了两个问题:

  1. 在计算机中如何表示句子语法结构
  2. 如何编程实现对句子语法结构的解析

于是我们这里就引出了CFG的概念,用来解决第一个问题。为了生成句子的语法树,我们可以定义如下的一套上下文无关语法 G = ( N 、 Σ 、 R 、 S ) G=(N、Σ、R、S) G=(NΣRS)

  1. N表示一组非叶子节点的标注,例如{S、NP、VP、N…}
  2. Σ表示一组叶子结点的标注,例如{boeing、is…}
  3. R表示一组规则,每条规则可以表示为X->Y1Y2…Yn,X∈N,Yi∈(N∪Σ)
  4. S表示语法树开始的标注
    其中NP表示名词短语(包括指代词)、VP表示动词短语、DT表示冠词、N表示名词等等,这里的句法规则符号可以参考词性标注库里的说明
    例如句子:I prefer a morning flight,我们可以得到:
    Σ=[I、prefer、 a 、morning 、flight]
    N=[S、NP、VB、DT、N]
    R=[
    S -> NP VP
    NP->Pro
    Pro->I
    VP->Verb NP
    Verb->prefer
    NP ->Det NOMINAL
    Det->a
    NOMINAL -> Noun Noun
    Noun ->morning
    Noun-> flight
    ]
    其句法树如下图所示:
    在这里插入图片描述
    既然已经知道了如何表示句子的语法结构,那么对于一个句子 S = [ w 1 . . . w n ] S=[w_1...w_n] S=[w1...wn]它是如何生成语法树的呢?下面就详细介绍几种常用句法解析算法。

3.基于搜索的句法解析

3.1自顶向下(top-down)

其核心思想就是在于从S开始自上而下寻找最左边的非叶子节点(非终结符号 即 词性)按推导规则进行扩展,直到所有节点都可以直接到达终结符号(词)。

比如对于句子[book that flight](该句子已经生成了相应的词性标注序列)。从S开始推导。有如下推导规则R(太多未写全):
S → ( N P V P ) / ( A u x N P V P ) / ( V P ) S\to{(NP\quad VP)/(Aux\quad NP\quad VP)/(VP)} S(NPVP)/(AuxNPVP)/(VP)
N P → ( D e t N o m ) / ( P r o p N ) NP \to{(Det\quad Nom)/(PropN)} NP(DetNom)/(PropN)
V P → ( V N P ) / ( V ) VP\to{(V \quad NP)/(V)} VP(VNP)/(V)

N o u n → B o o k Noun\to{Book} Noun

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值