Penn Chinese Treebank (CTB)论文笔记-成分句法分析的标注体系

Penn Chinese Treebank

标注体系

1. 分词(word segmentation)

由于本文的目标是为句子建立句法结构,因此在分词阶段本文采用了句法词(句法原子)的概念。涉及构词法和词法分析。

2. 词性标注(POS tagging)

由于汉语词汇没有时态、格数标记,词性标注的核心问题是词性标注的定义是基于语义还是基于句法分布。这个问题从20世纪50年代就开始争论了(Gong 1997),存在有两种相反的观点。
例如,“毁灭”翻译成英文:destroy/destroys/destroyed/destroying/destruction

  • 基于语义的词性标注认为,词的词性只取决于词的语义。根据这种观点,动词等同于语义上的概念,比如词的语义能够表达为一种行为或者活动,名词则通常描述一个实体或状态。在上例中,无论“毁灭”处于怎样的句法环境中(无论destroy是怎样的形态)其词义描述的就是一种行为动作,因此它的词性被唯一地标注为动词。
  • 基于句法分布的观点认为,词的词性取决于句法分布,在这种观点下,当“毁灭”作为名词短语的开头时,在该短语中它就被标注为名词。当其作为动词短语的开头是,在该短语中它就被标注为名词。
    本文采用第二个角度的词性标注策略。
POS tagset in alphabetical order
TagDescriptionExample
ADadverb(副词)
ASaspect marker
BA把 in ba-construction把、将
CCcoordinating conjunction(并列连词)
CDcardinal number(基数)一百
CSsubordinating conjunction(从属连词*)虽然
DEC的 in a relative-clause
DEGassociative 的
DER得 in V-de const. and V-de-R
DEV地 before VP
DTdeterminer(限定词)
ETCfor words 等、等等等、等等
FWforeign words(外来词)ISO
IJinterjection(感叹词)
JJother noun-modifier(名词修饰词)男、共同
LB被 in long bei-const被、给
LClocalizer(定位词)
Mmeasure word(量词)
MSPother particle(其他虚词)
NNcommon noun(普通名词)
NRproper noun(专有名词)中国
NTtemporal noun(时间名词)今天
ODordinal noun(序数词)第一
ONonomatopoeia(拟声词)哈哈、哔哔
Ppreposition excl. 被 and 把 (介词中去除被和把)
PNpronoun(代词)
PUpunctuation(标点)、?。
SB被 in short bei-const被、给
SPsentence-final particle(句末助词)
VApredicative adjective(补述形容词*)
VC
VE有 as the main verb
VVother verb

*虚词:词按照语法功能的区别,可以分为实词和虚词两大类。虚词就是 与“实词”相对的词。虚词是不能单独充当句法成分的词,有连接或附着各类实词的语法意义。根据能同哪些实词或短语发生关系,发生什么样的关系,可以把虚词分为介词、连词、助词、叹词和拟声词。

*从属连词:连词的一种,用来引导名词性从句或状语从句。 连词通常引导一个从句,修饰主句。 由从属连词所引导的句子叫从句,而含有从句的句子叫作复合句。

*补述形容词:区分于属性形容词,例如鞋子非常昂贵、昂贵的鞋子

3. 句法结构分析(syntactic bracketing)
  1. Labeled brackets
    选择三种最主要的语法关系:互补、附加和并列。complementation, adjunction
    and coordination
Tags for syntactic phrases
TagDescription
ADJPadjective phrase
ADVPadverbial phrase headed by AD (adverb)
CLPclassifier phrase
CPclause headed by C (complementizer)
DNPphrase formed by “XP + DEG”
DPdeterminer phrase
DVPphrase formed by “XP + DEV”
FRAGfragment
IPsimple clause headed by I (INFL)
LCPphrase formed by “XP + LC”
LSTlist marker
NPnoun phrase
PPpreposition phrase
PRNparenthetical
QPquantifier phrase
UCPunidentical coordination phrase
VPverb phrase
  1. Functional Tags
    在这里插入图片描述

4.1 Comparison with the Penn English Treebank

  1. 一组标记圆括号只代表同一个层次语法关系,而在英文的树库中这种规则是没有强制执行的
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值