NLP学习二 语料库与语言知识库

语料库 语言知识库

语料库技术
语料库就是存放语言材料的数据库
语料库语言学:研究自然语言机读文本的采集、存储、标注、检索、统计等方法的一门学问

语料库语言学的研究内容:
1. 语料库的建设和编纂
2. 语料库的加工和管理
3. 语料库的应用(包括在语言学研究和在自然语言处理中的应用)

20世纪80年代,语料库语言学的复兴的原因:
1. 基于规则的句法
2. 计算机和计算技术的迅猛发展
3. 转换生成语言学派对语料库语言学的批判和否定在经过20多年的实践检验后,被证明是错误的和片面的

20世纪80年代以来语料库语言学的复兴,在很大程度上反映了语言学界的一种较为普遍的心态,就是建立语言研究中人工数据和自然数据的平衡,实现语料统计方法和唯理分析方法的优势互补。

语料库类型:

按语种划分:单种语料库和多种语料库
按记载媒体划分:单媒体语料库和多媒体语料库
按地域划分:国家语料库和国际语料库
按语料代表性和平衡性划分:平衡语料库和平行语料库
按使用用途划分:通用语料库和专用语料库
按分布时间划分:共时语料库和历时语料库
按加工程度划分:生语料库和标注语料库

平衡语料库和平行语料库:平衡语料库着重考虑的是语料的代表性和平衡性。一个语料库具有代表性是指在该语料库上获得的分析结果可以概括成这种语言整体或其指定部分的特性。代表性和平衡性的概念不是绝对的,语料库只能近似的代表语言。平行语料一般有两种含义:在同一种语言的语料上的平行,如国际英语语料库,共有20个平行子语料库,分别来自于不同的国家。其平行性表现在预料选取的时间、对象、比例、文本数、文本长度等几乎一致。另一种理解是指对两种或者多种语言的平行采样和加工。

汉语语料库建设的问题
1. 语料库加工的规范问题。目前我国政府主管部门已经意识到制定中文信息处理所需的有关语言文字规范和标准的重要性和紧迫性。但目前为止,提出的规范没有被普遍接受和使用。且一些规范往往只重视了文本内语言标记,没有及时制定语料库的规范。
2. 产权保护问题
汉语语料库的知识产权包括两个方面:文本的知识产权、语料库的知识产权及其衍生产品。 文本的知识产权已经得到了保护,但语料库的知识产权却没有得到保护,至今在相关法律条款中有关语料库知识产权的条款都是空白。
语料库技术既是自然语言处理研究的内容和相关方法实现的基础,又需要其他相关技术的支持(如汉语自动分词和词性标注技术、双语对齐技术等)

语言知识库:
语言知识库比语料库包含更广泛的内容。语言知识库可分为两种不同的类型:一类是词典、规则库、语义概念库等。其中的语言知识表示是显性的,可采用形式化结构描述。另一类语言知识存在于语料库中,每个语言单位的出现其范畴、意义、用法都是确定的。语料库的主体是文本,即语句的集合,每个语句都是线性的非结构化的文字序列。其中包含的知识都是隐性的。语料加工的目的是将隐形的知识显性化,以便机器学习使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值