一.自然语言处理的概念
- 自然语言通常指的是人类的语言。
- 自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论和方法。又称为计算语言学(Computational Linguistics,CL)。
二.自然语言处理的难点
人工智能发展至今,在设计自然语言处理以及常识建模和推理等研究的认知智能上,机器与人类还有很大的差距。那么为什么计算机在处理自然语言时会如此困难呢?
自然语言的特性导致了计算机理解自然语言时会很困难:自然语言的抽象性,予以组合型,歧义性,进化性,非规范性,主观性,知识性和难移植性。
三.自然语言处理任务体系
1.任务层级
(1)资源建设
资源建设主要包括语言学知识库建设和语料库的建设。
词典(Dictionary)。也称辞典,除了可以为词语提供音韵、句法或者予以解释以及示例等信息,还可以提供词语之间的关系信息。
语料库指的是面向某一自然语言处理任务所标注的数据。
(2)基础任务
基础任务包括分词,词性标注,句法分析和语义分析等,这些任务往往不直接面向终端用户。他们主要为上层应用任务提供所需的特征。
(3)应用任务
应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等等,他们往往可以作为产品直接被终端用户使用。
(4)应用系统
应用系统特指自然语言处理技术在某一领域的综合应用,又称为NLP+,即自然语言处理技术加上特定的应用领域。
2.任务类别
(1)回归问题
将输入文本映射为一个连续的数值。
(2)分类问题
又称为文本分类,即判断一个输入的文本所属的类别。
(3)匹配问题
判断两个输入文本之间的关系
(4)解析问题
特指对文本中词语进行标注或识别词语之间的关系。
(5)生成问题
特指根据输入生成一段自然语言。
3.研究对象与层次
自然语言处理主要涉及“名”、“实”、“知”、“境”之间的关系。
(1)名:语言符号
(2)实:客观事实、主观意见
(3)知:知识
(4)境:语言所处的环境
随着NLP的研究由浅入深,可以分为形式,语义,推理和应用四个层次
(1)形式:名
(2)语义:名+实
(3)推理:名+实+知
(4)语用:名+实+知+境
4.NLP的发展历史
主要经历了四个时代,但总共就经历了两大研究范式的转换:理性主义 和经验主义。四个时代:
预训练模型的解释
模型预训练(Pre-train),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。这种学习方法称为无监督学习,但是准确应该是自监督学习。