自然语言处理之语料库

语料库

定义 :语料库(corpus)就是存放语言材料的仓库(语言数据库)

语料库技术的发展

早期:语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等

沉寂时期:1957年Chomsky 的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。Chomsky 及其转换生成语法学派批判早期的语料库研究方法

复苏与发展时期:

特征之一:第二代语料库相继建成

1983年英国Lancaster 大学建成Lancaster-Oslo / Bergen Corpus (LOB语料库): 研究英国英语,500 语篇,每个语篇约2000词。
法国国家科学研究中心与美国芝加哥大学联合建成法语语料库(Tremor de la Langue Francaise, TLF语料库):2000书面法语文本,1.5 亿词

芬兰赫尔辛基大学建成历史英语语料库(The Helsinki Corpus of Historical English):850-1720年, 1600万词。
1988年伦敦大学建成国际英语语料库(The International Corpus of English, ICE): 语料来自所有英语国家,各100万词,1990-1993年,口语和书面语各一半,18 岁以上接受英语教育的成人。

特征之二:基于语料库的研究项目增多

语料库的类型

按内容构成和目的划分(4种类型)
异质的(heterogeneous)-[黄昌宁,2002] 最简单的语料收集方法,没有事先规定和选材原则。
同质的(homogeneous) 与“异质”正好相反,比如美国的TIPSTER 项目只收集军事方面的文本。

系统的(systematic)充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专用的(specialized)如:北美的人文科学语料库

按语言种类划分

  • 单语的
  • 双语的或多语的  篇章对齐/ 句子对齐/ 结构对齐

是否标注?
-具有词性标注
-句法结构信息标注(树库)
-语义信息标注

语料库建设中的问题

语料库设计需要考虑的问题 静态和动态

平衡和非平衡

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值