语料库通常指为语言研究收集的、 用电子形式保存的语言材料,由自 然出现的书面语或口语的样本汇集 而成,用来代表特定的语言或语言 变体。经过科学选材和标注、具有 适当规模的语料库能够反映和记录 语言的实际使用情况。人们通过语 料库观察和把握语言事实,分析和 研究语言系统的规律。语料库已经 成为语言学理论研究、应用研究和 语言工程不可缺少的基础资源。语料库有多种类型,确定类型的主 要依据是它的研究目的和用途,这 一点往往能够体现在语料采集的原 则和方式上。有人曾经把语料库分 成四种类型:(1)异质的(He terogeneous):没有 特定的语料收集原则,广泛收集并 原样存储各种语料;(2)同质的 (Homogeneous):只 收集同一类内容的语料;(3)系 统的(Systematic): 根据预先确定的原则和比例收集语 料,使语料具有平衡性和系统性, 能够代表某一范围内的语言事实; (4)专用的(Speciali zed):只收集用于某一特定用 途的语料。除此之外,按照语料的 语种,语料库也可以分成单语的( Monolingual)、双语 的(Bilingual)和多语 的(Multilingual) 。按照语料的采集单位,语料库又 可以分为语篇的、语句的、短语的 。双语和多语语料库。按照语料的 组织形式,还可以分为平行(对齐 )语料库和比较语料库,前者的语 料构成译文关系,多用于机器翻译 、双语词典编撰等应用领域,后者 将表述同样内容的不同语言文本收 集到一起,多用于语言对比研究。 我国语料库的建设始于80 年代,当时的主要目标是汉语词汇 统计研究。进入90 年代以后,语料库方法在自然语言 信息处理领域得到了广泛的应用, 建立了各种类型的语料库,研究的 内容涉及语料库建设中的各个问题 。90 年代末到新世纪初这几年是语料库 开发和应用的进一步发展时期,除 了语言信息处理和言语工程领域以 外,语料库方法在语言教学、词典 编纂、现代汉语和汉语史研究等方 面也得到了越来越多的应用。 1998 年到2003 年中国语料库建设的基本情况:( 一)现代汉语通用语料库(二)《 人民日报》标注语料库(三)用于 语言教学和研究的现代汉语语料库 (四)面向语言信息处理的现代汉 语语料库(五)用于开发特定语言 分析技术的专用语料库等。
搜索引擎-语料库
最新推荐文章于 2022-03-30 11:24:45 发布