《NLP汉语自然语言处理原理与实践》学习四

语法组块标注

法国的著名语言学家Steven Abney最早提出了一个完整的组块(Chunk)描述体系,并给出了组块的定义。他把组块定义为句内的一个非递归的核心成分。这种成分包含核心成分的前置修饰成分,而不包含后置附属结构。同时,Abney还提出了组块解析的策略,通过引进句法块(Chunk)概念,他将句法分析问题分为如下三个阶段:

  • 块识别:利用块识别器快速识别出句子中所有的块。

  • 块内结构分析:对每个块内部的成分赋予合适的句法结构。

  • 块间关系分析:利用块连接器(Attacker)将各个不同的块组合成完成的句法机构树。

语义组块一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语言模型和搜索策略加以分析处理;另一个方面。通过在块层次上进行自底向上的块间关系分析和自顶向下的块结构分析,可以大大提高整体分析效率,达到降低句子分析难度的目的。语义组块的另一个用处在于浅层语法分析,即将语义角色标注的工作建立在浅层语法分析之上,不再使用句法解析树,而是利用分析出来的语法组块直接进行语义角色标注,希望利用相对更准确的组块分析结果提升语义角色标注准确率。最常用的一个领域是,语义组块用于知识库的实体关系抽取。

 并非所有的短语类型都能作为语义组块。剩下的短语类型包括:ADJP、ADVP、DNP、DP、DVP、LCP、NP、PP、PRN、QP、和VP。

  1. NP(名词短语):宾州树库中的名词短语是指中心词为名词所构成的短语,其语法功能相当于名词性成分,一般可以在句子zho充当主语、宾语、定语等。NP是NLP组块分析中最为复杂的一种结构。从语法的角度来讲,该结构具有两种含义,一种是值按句法成分构成的短语;另一种是指知识库中的实体和属性,这种组块称为baseNP。

  2. VP(动词短语):是以动词为中心,与其修饰、限定或并列成分共同构成的一种语义组块,除中心动词表达的行为之外,其修饰和限定成分更明确和具体化动作的语义。

  3. QP(数词短语):由数量词构成的短语结构。

  4. DP(限定词短语):一般用于修饰NP或限定QP,可以作为复合NP子结构。

  5. ADJP(形容词短语):其所修饰的名词中心语总是要先投射成一个NP。

  6. DNP:由多种类型的短语加上(DEG的)构成。它们总是出现在NP的上下文中。(DEG的)出表示它前面的短语为NP的修饰语之外,没有其他作用。DNP常被看作一种复合的NP结构。

  7. ADVP(副词短语):常用作动词的修饰语。

  8. PP(介词短语)

  9. LCP:处所词为中心语的短语。

语义块的抽取

语义块识别的最常用方法是条件随机场(Conditional Random Fields,CRF)。使用CRF进行语义块的识别,语料一般使用Penn TreeBank的CTB树库语聊。使用CRF来识别语义组块,需要通过如下三个阶段完成:

  • 使用Penn TreeBank树库中的语料从树状结构变为序列结构

  • 使用CRF算法对制作好的语料进行训练、生成模型

  • 使用训练的结果,测试组块标注。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值