语料库的句法标注是语料库语言学研究的前沿课题,它的处理目标是对语料文本进行句法分析和标注,形成树库(tree bank)语料。
作为语料库多级加工过程中的一个中间阶段,句法分析和标注应该为进一步进行汉语句子的词语义项和语义关系标注提供有力的支持。理想情况下,在对句子进行正确句法信息标注的前提下,应能依据一个语义知识库和自动标注工具,准确地标注出大部分的语义信息。而要实现这个目标,就必须在这个阶段给出尽可能详细的句法信息描述。我们的基本设想是,对结构信息的完整描述,至少应包含以下内容:
1) 结构的外部功能特征描述:分析它进一步与其他结构相结合的能力;
2) 结构的内部组合关系描述:分析它内部的组成成分之间的语义组合关系;
3) 结构的语义中心词描述:分析它的语义中心词位置;
在汉语的绝大多数结构中,一般可以依据上面1)和2)的信息唯一地确定3)的位置。因此,在我们的标注体系中,主要对1)和2)两部分信息进行显性描述和标注。谓词,我们设计了一下两个标记集:成分标记集和关系标记集。
汉语成分标记集
序号 | 标记代码 | 标记名称 |
---|---|---|
1 | np | 名词短语 |
2 | tp | 时间短语 |
3 | sp | 空间短语 |
4 | vp | 动词短语 |
5 | ap | 形容词短语 |
6 | bp | 区别词短语 |
7 | dp | 副词短语 |
8 | pp | 介词短语 |
9 | mbar | 数量准短语 |
10 | mp | 数量短语 |
11 | dj | 单句句型 |
12 | fj | 复句句型 |
13 | zj | 整句 |
14 | jq | 句群 |
15 | dlc | 独立成分 |
16 | yj | 直接引语 |
句法关系标记集
序号 | 标记代码 | 标记名称 |
---|---|---|
1 | ZW | 主谓结构 |
2 | PO | 述宾结构 |
3 | SB | 述补结构 |
4 | DZ | 定中结构 |
5 | ZZ | 状中结构 |
6 | LH | 联合结构 |
7 | LW | 连谓结构 |
8 | AD | 附加结构 |
9 | CD | 重叠结构 |
10 | JY | 兼语结构 |
11 | JB | 介宾结构 |
12 | FW | 方位结构 |
13 | KS | 框式结构 |
14 | BH | 标号结构 |
15 | SX | 顺序结构 |
16 | BL | 并列关系 |
17 | LG | 连贯关系 |
18 | DJ | 递进关系 |
19 | XZ | 选择关系 |
20 | YG | 因果关系 |
21 | MD | 目的关系 |
22 | JS | 假设关系 |
23 | TJ | 条件关系 |
24 | ZE | 转折关系 |
25 | JZ | 解注关系 |
26 | LS | 流水关系 |
27 | XX | 缺省关系 |