NLP学习二 语料库与语言知识库

语料库 语言知识库

语料库技术
语料库就是存放语言材料的数据库
语料库语言学:研究自然语言机读文本的采集、存储、标注、检索、统计等方法的一门学问

语料库语言学的研究内容:
1. 语料库的建设和编纂
2. 语料库的加工和管理
3. 语料库的应用(包括在语言学研究和在自然语言处理中的应用)

20世纪80年代,语料库语言学的复兴的原因:
1. 基于规则的句法
2. 计算机和计算技术的迅猛发展
3. 转换生成语言学派对语料库语言学的批判和否定在经过20多年的实践检验后,被证明是错误的和片面的

20世纪80年代以来语料库语言学的复兴,在很大程度上反映了语言学界的一种较为普遍的心态,就是建立语言研究中人工数据和自然数据的平衡,实现语料统计方法和唯理分析方法的优势互补。

语料库类型:

按语种划分:单种语料库和多种语料库
按记载媒体划分:单媒体语料库和多媒体语料库
按地域划分:国家语料库和国际语料库
按语料代表性和平衡性划分:平衡语料库和平行语料库
按使用用途划分:通用语料库和专用语料库
按分布时间划分:共时语料库和历时语料库
按加工程度划分:生语料库和标注语料库

平衡语料库和平行语料库:平衡语料库着重考虑的是语料的代表性和平衡性。一个语料库具有代表性是指在该语料库上获得的分析结果可以概括成这种语言整体或其指定部分的特性。代表性和平衡性的概念不是绝对的,语料库只能近似的代表语言。平行语料一般有两种含义:在同一种语言的语料上的平行,如国际英语语料库,共有20个平行子语料库,分别来自于不同的国家。其平行性表现在预料选取的时间、对象、比例、文本数、文本长度等几乎一致。另一种理解是指对两种或者多种语言的平行采样和加工。

汉语语料库建设的问题
1. 语料库加工的规范问题。目前我国政府主管部门已经意识到制定中文信息处理所需的有关语言文字规范和标准的重要性和紧迫性。但目前为止,提出的规范没有被普遍接受和使用。且一些规范往往只重视了文本内语言标记,没有及时制定语料库的规范。
2. 产权保护问题
汉语语料库的知识产权包括两个方面:文本的知识产权、语料库的知识产权及其衍生产品。 文本的知识产权已经得到了保护,但语料库的知识产权却没有得到保护,至今在相关法律条款中有关语料库知识产权的条款都是空白。
语料库技术既是自然语言处理研究的内容和相关方法实现的基础,又需要其他相关技术的支持(如汉语自动分词和词性标注技术、双语对齐技术等)

语言知识库:
语言知识库比语料库包含更广泛的内容。语言知识库可分为两种不同的类型:一类是词典、规则库、语义概念库等。其中的语言知识表示是显性的,可采用形式化结构描述。另一类语言知识存在于语料库中,每个语言单位的出现其范畴、意义、用法都是确定的。语料库的主体是文本,即语句的集合,每个语句都是线性的非结构化的文字序列。其中包含的知识都是隐性的。语料加工的目的是将隐形的知识显性化,以便机器学习使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值