nlp-形式语言与自动机-ch04-语料库与语言知识库

1、语料库语言学是研究什么的学问?

研究自然语言机读文本(或称电子文本)的采集、存储、标注、检索、统计等方法的一门学问,其目的是通过对客观存在的大规模真实文本中的语言事实进行定量分析,为语言学研究或自然语言处理系统开发提供支持。

2、语料库语言学研究内容:

a)语料库的建设与编纂;b)语料库的加工和管理;c)语料库的应用,包括在语言学研究(言语、词汇和语义研究等)中的应用和在自然语言处理中的应用。

3、语料库的类型:

语种:单语种和多语种语料库。

记载媒体:单媒体和多媒体语料库。

地域:国家与国际语料库。

代表性和平衡性:平衡与平行语料库。

用途:通用与专用语料库。

分布时间:共时与历时语料库。

加工程度:生语料与标注语料库。

4、平行语料的两个含义:

a)在同一种语言的语料上的平行。-目的是对不同国家的(英语)进行对比研究。

b)两种或多种语言之间的平行采样和加工。-例如用于机器翻译中的双语对齐语料。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值