【读书笔记】自然语言处理:基于预训练模型的方法(第1章)

目录

第1章 绪论

1.1 自然语言处理的概念

1.2 自然语言处理的难点

1.3 自然语言处理任务体系

1.3.1 任务层级

1.3.2 任务类别

 1.3.3 研究对象与层次

 1.4 自然语言处理技术发展历史


第1章 绪论

1.1 自然语言处理的概念

自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学(Computational Linguistics,CL)。

1.2 自然语言处理的难点

1.3 自然语言处理任务体系

1.3.1 任务层级

按照从低层到高层的方式,可以划分为资源建设、基础任务、应用任务和应用系统四大类(见图1-1)

  • 语言学知识库:一般包括词典、规则库等。词典(Dictionary)也称辞典(Thesaurus),除了可以为词语提供音韵、句法或者语义解释以及示例等信息,还可以提供词语之间的关系信息,如上下位、同义反义关系等。
  • 语料库资源:指的是面向某一自然语言处理任务所标注的数据。

1.3.2 任务类别

 1.3.3 研究对象与层次

自然语言处理主要涉及“名”“实”“知”“境”之间的关系,由浅入深,可以分为形式、语义、推理和语用四个层次。

 1.4 自然语言处理技术发展历史

  • 第一阶段:受到语料规模以及计算能力的限制,早期的自然语言处理主要采用基于理性主义的规则方法,通过专家总结的符号逻辑知识处理通用的自然语言现象。
  • 第二阶段:随着计算机运算速度和存储容量的快速增加,以及统计学习方法的愈发成熟,使得以语料库为核心的统计学习方法在自然语言处理领域得以大规模应用。由于大规模的语料库中包含了大量关于语言的知识,使得基于语料库的统计自然语言处理方法能够更加客观、准确和细致地捕获语言规律。在这一时期,词法分析、句法分析、信息抽取、机器翻译和自动问答等领域的研究均取得了一定程度的成功。局限性:需要特征工程,即需要事先利用经验性规则将原始的自然语言输入转化为机器能够处理的向量形式。
  • 第三阶段:随着基于深度神经网络的表示学习方法(也称深度学习)的兴起,该方法直接端到端地学习各种自然语言处理任务,不再依赖人工设计的特征。所谓表示学习,是指机器能根据输入自动地发现可以用于识别或分类等任务的表示。表示学习可以自动地发现有效特征,同时,还能够将不同任务在相同的向量空间内进行表示,从而具备跨任务迁移的能力。缺点:过度依赖于大规模有标注数据,而自然语言处理的“主观性”特点,以及其所面对的任务和领域众多,导致自然语言处理的标注数据往往不够充足。
  • 第四阶段:静态词向量预训练模型、动态词向量预训练模型,特别是2018年以来,以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点。
    • 预训练模型:即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。在本质上,这也是迁移学习(Transfer Learning)思想的一种应用。
    • 自监督学习:文本自身的顺序性就是一种天然的标注数据,通过若干连续出现的词语预测下一个词语(又称语言模型)就可以构成一项原任务。由于图书、网页等文本数据规模近乎无限,所以,可以非常容易地获得超大规模的预训练数据。这种不需要人工标注数据的预训练学习方法称为自监督学习。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值