自然语言处理3——语言学资源

自然语言处理3——语言学资源


NLP需要大规模语言数据用于模型参数训练及评测;且NLP中知识库包括:词汇语义库、词法、句法规则库、常识库等。

词汇资源库

人读词典:格式不规范,数据完整性和一致性不好,非结构化

机读词典:

  • 按信息类型分类:语法词典、语义词典、双语词典等
  • 按领域分类:通用词典、专业词典、专名词典(为解决某一类任务所有的名字、地名等构成的词典)等

常用的词典资源:

  • 综合型语言知识库(CLKB)
  • 新华社词语数据库:语法层面的,分为中文和外文两类
  • 同义词词林:语义层面的
  • WordNet(词网):英文语义词典,为解决词典中同义信息的组织问题;由词集构成,一个词集表示一个概念,概念与概念之间由网络表示,同义词集合间的语义关系是对称关系。
  • 知网(hownet):反映概念的共性与个性及概念之间和概念的属性之间的各种关系。用若干个不可再分的义原(DEF)描述。义原描述的是语义层面。
  • 清华大学开放中文词库

语料库

定义:文本的集合,包括生语料(未经处理的语料)、熟语料(带标记),语料库是NLP的知识来源。

语料加工过程:

生语料->自动分词->语法标注->句法分析->语义语用分析->语言知识库

分类

  • 按内容构成和目的划分:
    • 同质的:只收集某方面文本
    • 异质的:事先没有规定和选材原则
    • 系统的:充分考虑语料的动态、静态、代表性、平衡、规模等问题
    • 专用的
  • 按加工深度划分:
    • 单语语料库:切分;具有词性标注、句法结构信息标注、语义信息标注
    • 双语/多语语料库:篇章对齐;段落对齐;句子对齐;短语对齐;词对齐
  • 平衡语料库:事先看一下各类语料的先验概率是多少(即在现实世界中的比例),那么语料库中各类的比例也要差不多
  • 平行语料库:多种语言的对齐文本

研究

  • 收集:建设平衡语料库
  • 加工:标注;标注技术:分词、词性标注、句法标注、语义标注等
  • 统计:目的:判断加工出的语料库在规模上、质量上是否好;便于构建模型
    • 齐普夫定律:非常常用的词很少,中频词数量中等,大量低频词
  • 模型化

语料库功能的决定因素

决定因素规模分布加工深度
对应可靠性适用范围能提供什么样的知识

英文语料库

  • Brown语料库:世界上第一个根据系统性原则采集样本的标准语料库,将每个词打上不同的标签
  • 宾州树库:2000年完成第一版中文树库;树库:即给定一个句子,构建出句法分析树
  • UPenn语篇树库:宾州树库的扩展,标注的是语篇结构信息,即句子和句子之间的关系,如转折、递进等。

中文语料库

  • 中国中文语言资源联盟
  • 北京大学语料库:较实用
  • 台湾中研院平衡语料库(Sinica):第一个带有完整词类标记的汉语平衡语料库,采样时以自然段落为准,不看文章长度;语料采样多重分类法

注:此处只列举了部分语料库
往期文章:
自然语言处理1——NLP概述
自然语言处理2——语言学基础

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值