《NLP-基于预训练模型的方法》----笔记一(绪论)

一.自然语言处理的概念

  • 自然语言通常指的是人类的语言。
  • 自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论和方法。又称为计算语言学(Computational Linguistics,CL)。

二.自然语言处理的难点

人工智能发展至今,在设计自然语言处理以及常识建模和推理等研究的认知智能上,机器与人类还有很大的差距。那么为什么计算机在处理自然语言时会如此困难呢?

自然语言的特性导致了计算机理解自然语言时会很困难:自然语言的抽象性,予以组合型,歧义性,进化性,非规范性,主观性,知识性和难移植性。

三.自然语言处理任务体系

1.任务层级

在这里插入图片描述
(1)资源建设

资源建设主要包括语言学知识库建设和语料库的建设。
词典(Dictionary)。也称辞典,除了可以为词语提供音韵、句法或者予以解释以及示例等信息,还可以提供词语之间的关系信息。
语料库指的是面向某一自然语言处理任务所标注的数据。

(2)基础任务

基础任务包括分词,词性标注,句法分析和语义分析等,这些任务往往不直接面向终端用户。他们主要为上层应用任务提供所需的特征。

(3)应用任务

应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等等,他们往往可以作为产品直接被终端用户使用。

(4)应用系统

应用系统特指自然语言处理技术在某一领域的综合应用,又称为NLP+,即自然语言处理技术加上特定的应用领域。

2.任务类别

(1)回归问题

将输入文本映射为一个连续的数值。

(2)分类问题

又称为文本分类,即判断一个输入的文本所属的类别。

(3)匹配问题

判断两个输入文本之间的关系

(4)解析问题

特指对文本中词语进行标注或识别词语之间的关系。

(5)生成问题

特指根据输入生成一段自然语言。

3.研究对象与层次

自然语言处理主要涉及“名”、“实”、“知”、“境”之间的关系。

(1)名:语言符号
(2)实:客观事实、主观意见
(3)知:知识
(4)境:语言所处的环境

随着NLP的研究由浅入深,可以分为形式,语义,推理和应用四个层次

(1)形式:名
(2)语义:名+实
(3)推理:名+实+知
(4)语用:名+实+知+境

4.NLP的发展历史

主要经历了四个时代,但总共就经历了两大研究范式的转换:理性主义 和经验主义。四个时代:
在这里插入图片描述

预训练模型的解释

模型预训练(Pre-train),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。这种学习方法称为无监督学习,但是准确应该是自监督学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值