语料库技术
语料库(corpus base)就是存放语言材料的数据库。那么,顾名思义,语料库语言学(corpus linguistics)就是
基于语料库进行语言学研究的一门学问。具体一点讲,语料库语言学是研究自然语言机读文本(或称“电子文本”)的采集、存储、标注、检索、统计等方法的一门学问,其目的是通过对客观存在的大规模真实文本中的语言事实进行定量分析,为语言学研究或自然语言处理系统开发提供支持。
语料库语言学研究的内容十分广泛,涉及语料库的建设和利用等多个方面,归纳起来,可以大致包括如下几方面的内容: ①语料库的建设与编纂;②语料库的加工和管理;③语料库的应用,包括在语言学研究(言语、词汇和语义研究等)中的应用和在自然语言处理中的应用。
语料库的类型
按语种划分可以分为单语种语料库和多语种语料库;按记载媒体不同可以分为单媒体语料库和多媒体语料库;按照地域区别可以分为国家语料库和国际语料库等。这里主要介绍以语料代表性和平衡性为主要区分依据的“平衡语料库与平行语料库”、以语料库用途为主要区分依据的“通用语料库与专用语料库”、以语料分布时间为主要区分依据的“共时语料库与历时语料库”和以语料库内容加工程度划分的“生语料与标注语料库”。
- 平衡语料库与平行语料库
平衡语料库着重考虑的是语料的代表性与平衡性。张普(2003)曾经提出语料采集的七项原则:语料的真实性、语料的可靠性、语料的科学性、语料的代表性、语料的权威性、语料的分布性和语料的流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。 - 通用语料库与专用语料库