统计自然语言处理(第二版)学习笔记:第四章 语料库与语言知识库

目录:

1.基本概念
2.预料库的技术发展
3.国内语料库研究状况
4.语料库的类型
5.典型语料库介绍
6.构建语料库的流程图

1.基本概念

在这里插入图片描述

语料库(corpus):存放语言材料的仓库(语言数据库)。

语料库语言学(corpus linguistics):基于语料库进行语言学研究。

研究内容:

  1. 语料库的建设与编纂;
  2. 语料库的加工和管理技术;
  3. 语料库的使用,包括在语言学研究(言语、 词汇和语义研究等)中的应用和在自然语言处理中的应用。

2.预料库的技术发展

三个阶段:

(1)20世纪50年代中期之前:早期

主要集中在几个方面:语言习得、音系研究、方言学与语料库技术结合。

(2)1957~20世纪80年代初期:沉寂时期

1957年乔姆斯基的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。

乔姆斯基及其转换生成语法学派否定早期的语料库研究方法的主要依据有两点:

• 预料研究的方向有误

• 语料的不充分性

(3)20世纪80年代以后:复苏与发展时期

主要表现在两方面:

• 第二代语料库相继建成

• 基于语料的研究项目大量增加

语料库技术复苏的原因:

  1. 计算机的迅速发展;
  2. 基于规则的句法—语义分析方法赖以利用的语言知识无论是词典信息还是语法规则, 主要通过语言学家的内省来获取的, 而实际上这种知识不可能覆盖真实文本中出现的所有语言事实;

3.国内语料库研究状况

北京大学计算语言学研究所

(http://icl.pku.edu.cn/)在俞士汶教授领导下建立的综合型语言知识库(简称CLKB)涵盖了词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。 CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源。

4.语料库的类型

4.1 按内容构成和目的划分

异质的 (heterogeneous)
最简单的语料收集方法,没有事先规定和选材原则。

同质的(homogeneous)
与“异质”正好相反,比如美国的TIPSTER 项目
只收集军事方面的文本。

系统的(systematic)
充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。

专用的(specialized)
如:北美的人文科学语料库。

4.2 按语言种类划分

单语语料库(monolingual corpus):这种语料库只包含一种语言。

双语语料库(bilingual corpus):这种语料库包含两种语言。
多语言语料库(multilingual corpus):这种语料库包含一种以上的语言。

4.3 是否标注

具有词性标注

句法结构信息标注(树库)

语义信息标注

4.4 平衡语料库

平衡语料库着重考虑语料的代表性平衡性

语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。
其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

4.5 平行语料库

两种含义:

一种是指在同一种语言的语料上的平行。其平行性表现为语料选取的时间、 对象、比例、 文本数、 文本长度等几乎是一致的。 建库的目的是对不同国家的英语进行对比研究。

另一种平行语料库是指在两种或多种语言之间
的平行采样和加工。例如,机器翻译中的双语对齐语料库(句子对齐或段落对齐) 。

4.6 共时语料库与历时语料库

共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。 研究大树的横断面所见的细胞和细胞关系, 即研究一个共时平面中的元素与元素的关系。

历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

在这里插入图片描述
判断历时语料库的4条原则:

(1)是否动态:语料库必须是开放的、动态的;

(2)文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒, 具有与传媒特色相应的流通度属性。 其量化的属性值也是动态的;

(3)深加工是否基于动态的加工方法:随语料的动态变化采集, 并进行动态地加工;

(4)是否取得动态的加工结果:语料的加工结果也应是动态的和历时的。

5.典型语料库介绍

5.1 LDC中文树库(Chinese Tree Bank,CTB)

由宾夕法尼亚大学(UPenn)开发并通过语言数据联盟(LDC) 发布的中文句法树库,该树库收集的语料取材于新华社和香港新闻等媒体。
(https://www.ldc.upenn.edu/)

在CTB中, 汉语词性被划分为33类: 包括4类动词和谓语性形容词(Verb, Adjective, 分别记作: VC, VE, VV, VA) 、 3类名词(Noun, 分别记作: NR, NT, NN) 、 1类处所词(Localizer, 记作: LC) 、 1类代词(Pronoun, PN) 、 3类限定词和数词(Determiner and Number, 分别记
作: DT, CD, OD) 、 1类量词(Measure word, 记作: M) 、 1类副词(Adverb, 记作: AD) 、 1类介词(Preposition, 记作: P) 、 2类连词(Conjunction, 分别记作: CC, CS) 、 8类语气词(Particle, 分别记作: DEC, DEG, DER, DEV, SP, AS, ETC, MSP) 和8类包括外来词、 标
点、 感叹词等在内的其他词类(分别记作: IJ, ON, PU, JJ, FW, LB, SB,BA) 。

CTB包括23类句法标记(syntactic tag) , 其中, 17类短语: 形容词短语(adjective phrase, ADJP) 、 副词开头的副词短语(adverbial phrase headed by AD, ADVP) 、 量词短语(classifier phrase, CLP) 、 补语性嵌套句的从属连词引起的分句(clause headed by complementizer, CP) 、 XP+DEG结构构成的短语(DNP) 、 限定词短语(determiner phrase,DP) 、 XP+DEV结构构成的短语(DVP) 、 片段语(fragment,FRAG) 、 简单分句(simple clause headed by INFL, IP) 、 XP+LC结构构成的短语(LCP) 、 用于解释说明性的列表标记短语(list marker,
LST) 、 名词短语(noun phrase, NP) 、 介词短语(preposition, PP) 、插入语(parenthetical, PRN) 、 数量词短语(quantifier phrase, QP) 、 非一致性并列短语(unidentical coordination phrase, UCP) 和动词短语(verb phrase, VP) 。 另外, 还有6个动词复合形式的标记(VCD, VCP,VNV, VPT, VRD, VSB) 和一些句法结构成分标记, 如: 主语(-SBJ) 、谓语(-PRD) 、 宾语(-OBJ) 等。 另外, 为了便于子树回溯, 对一些空类也给出了标记符号。

例如:这座楼十八英尺。

在这里插入图片描述

5.2 命题库、名词化树库和语篇

(1)命题库PropBank

PropBank的目标是对原树库中的句法结点标注上特定的论元标记(argument label) , 使其保持语义角色的相似性。

(2)名词化树库NomBank

NomBank标注的是树库中名词的词义和相关的论元信息。

(3)语篇树库(Penn Discourse Tree Bank,PDTB)

目标是开发一个标注语篇结构信息的大规模语料库, 主要标注与语篇连通方式(discourse connectives) 相关的一致关系(coherence relation) 。 标注信息主要包括连通方式的论元结构、 语义区分信息, 以及连通方式和论元的修饰关系特征(attribution-related features) 等 。

5.3 布拉格依存树库 (Prague Dependency Treebank, PDT)

(http://www.elsnet.org/nps/0040.html )

PDT包含三个层次:
形态层(morphological layer)
PDT的最低层, 包含全部的形态信息标注;

分析层(analytic layer)
PDT的中间层, 主要是依次关系中的表层句法信息标注, 层次概念上接近于Penn Treebank中的句法标注;

深层语法层(tectogrammatical layer)
PDT的最高层, 表达句子的深层语法结构。

深层语法树结构(tectogrammatical tree structure,TGTS) 只包含那些句子中对应有实际含义的词(实意词)(autosemantic word) 结点(例如, 没有介词结点) , 满足投射性条件(condition of projectivity) , 即没有交叉边, 每个结点被指定一个算符, 如ACTOR, PATIENT, ORIGIN等 。

5.4 BTEC口语预料

其目标是开展语音翻译的国际合作研究, 开发实用的语音翻译技术。

6.构建语料库的流程图

在这里插入图片描述

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值