Penn Chinese Treebank
标注体系
1. 分词(word segmentation)
由于本文的目标是为句子建立句法结构,因此在分词阶段本文采用了句法词(句法原子)的概念。涉及构词法和词法分析。
2. 词性标注(POS tagging)
由于汉语词汇没有时态、格数标记,词性标注的核心问题是词性标注的定义是基于语义还是基于句法分布。这个问题从20世纪50年代就开始争论了(Gong 1997),存在有两种相反的观点。
例如,“毁灭”翻译成英文:destroy/destroys/destroyed/destroying/destruction
- 基于语义的词性标注认为,词的词性只取决于词的语义。根据这种观点,动词等同于语义上的概念,比如词的语义能够表达为一种行为或者活动,名词则通常描述一个实体或状态。在上例中,无论“毁灭”处于怎样的句法环境中(无论destroy是怎样的形态)其词义描述的就是一种行为动作,因此它的词性被唯一地标注为动词。
- 基于句法分布的观点认为,词的词性取决于句法分布,在这种观点下,当“毁灭”作为名词短语的开头时,在该短语中它就被标注为名词。当其作为动词短语的开头是,在该短语中它就被标注为名词。
本文采用第二个角度的词性标注策略。
POS tagset in alphabetical order
Tag | Description | Example |
---|---|---|
AD | adverb(副词) | 还 |
AS | aspect marker | 着 |
BA | 把 in ba-construction | 把、将 |
CC | coordinating conjunction(并列连词) | 和 |
CD | cardinal number(基数) | 一百 |
CS | subordinating conjunction(从属连词*) | 虽然 |
DEC | 的 in a relative-clause | 的 |
DEG | associative 的 | 的 |
DER | 得 in V-de const. and V-de-R | 得 |
DEV | 地 before VP | 地 |
DT | determiner(限定词) | 这 |
ETC | for words 等、等等 | 等、等等 |
FW | foreign words(外来词) | ISO |
IJ | interjection(感叹词) | 啊 |
JJ | other noun-modifier(名词修饰词) | 男、共同 |
LB | 被 in long bei-const | 被、给 |
LC | localizer(定位词) | 里 |
M | measure word(量词) | 个 |
MSP | other particle(其他虚词) | 所 |
NN | common noun(普通名词) | 书 |
NR | proper noun(专有名词) | 中国 |
NT | temporal noun(时间名词) | 今天 |
OD | ordinal noun(序数词) | 第一 |
ON | onomatopoeia(拟声词) | 哈哈、哔哔 |
P | preposition excl. 被 and 把 (介词中去除被和把) | 从 |
PN | pronoun(代词) | 他 |
PU | punctuation(标点) | 、?。 |
SB | 被 in short bei-const | 被、给 |
SP | sentence-final particle(句末助词) | 吗 |
VA | predicative adjective(补述形容词*) | 红 |
VC | 是 | 是 |
VE | 有 as the main verb | 有 |
VV | other verb | 走 |
*虚词:词按照语法功能的区别,可以分为实词和虚词两大类。虚词就是 与“实词”相对的词。虚词是不能单独充当句法成分的词,有连接或附着各类实词的语法意义。根据能同哪些实词或短语发生关系,发生什么样的关系,可以把虚词分为介词、连词、助词、叹词和拟声词。
*从属连词:连词的一种,用来引导名词性从句或状语从句。 连词通常引导一个从句,修饰主句。 由从属连词所引导的句子叫从句,而含有从句的句子叫作复合句。
*补述形容词:区分于属性形容词,例如鞋子非常昂贵、昂贵的鞋子
3. 句法结构分析(syntactic bracketing)
- Labeled brackets
选择三种最主要的语法关系:互补、附加和并列。complementation, adjunction
and coordination
Tags for syntactic phrases
Tag | Description |
---|---|
ADJP | adjective phrase |
ADVP | adverbial phrase headed by AD (adverb) |
CLP | classifier phrase |
CP | clause headed by C (complementizer) |
DNP | phrase formed by “XP + DEG” |
DP | determiner phrase |
DVP | phrase formed by “XP + DEV” |
FRAG | fragment |
IP | simple clause headed by I (INFL) |
LCP | phrase formed by “XP + LC” |
LST | list marker |
NP | noun phrase |
PP | preposition phrase |
PRN | parenthetical |
QP | quantifier phrase |
UCP | unidentical coordination phrase |
VP | verb phrase |
- Functional Tags
4.1 Comparison with the Penn English Treebank
- 一组标记圆括号只代表同一个层次语法关系,而在英文的树库中这种规则是没有强制执行的