《自然语言处理导论》读书笔记2

第一章(2)

知识补充:

词性标注:就是给词语标注属性,包括名词、动词、形容词、副词、代词、数词、介词等等。

分词:是自然语言处理(NLP)中的一个基本任务,指的是将连续的文本划分为单独的单位,如单词、短语或符号。分词在文本预处理阶段起到关键作用,有助于提高后续NLP任务的性能,如句法分析、情感分析和命名实体识别等。例如:我爱你中国   可以划分成“我爱你/中国”

模型:在机器学习中,“模型”通常指的是一个数学或统计学的函数或算法,它能够从给定的数据集中学习出一些规律或者模式,并用这些规律或模式来进行预测或分类。

自然语言处理的几种方式(基本范式)

主要包括:基于规则的方法、基于机器学习的方法以及基于深度学习的方法。上述三种范式虽然有很大的不同,但是都有一个相同点就是需要针对特定任务进行构建。

1、基于规则的方法(基于词典的方法)

基于规则的自然语言处理方法的主要思想是通过词汇、形式文法等制定的规则引入语言学知识,从而完成相应的自然语言处理任务。
基于规则的方法基本流程如图所示,主要包含:数据构建、规则构建、规则应用和效果评价等四个部分。

 

方法核心是规则形式定义,其目标是使得语言学家可以在不了解计算机程序设计的情况下,能够容易地将知识转换为规则
例如:其他领域的业务专家(不了解计算机知识),通过直接在搜索系统后台配置同义词词典、业务词词典,来影响搜索效果。
常见的规则包括产生式、框架、自动机、谓词逻辑、语义网等形式。例如,产生式规则是以 “IF-
THEN” 形式构造,表示如果满足条件,则执行相应的语义动作。
比如:同义词的配置,IF=工资,then=薪酬/薪水
  • 优势:基于规则的方法从某种程度上可以说是在试图模拟人类完成某个任务时的思维过程。这类方法主要优点是直观、可解释、不依赖大规模的有标注数据,可以仅仅依靠人类的背景知识进行构建。
  • 缺点:主要包括覆盖率差、大规模规则构建代价大、难度高等。规则库达到一定数量之后维护困难,新增加的规则与已有规则也容易发生冲突。不同人对于同一问题的解决思路的不同,也造成了大规模规则库中规则的不一致性,从而使得维护难度进一步提高。

2、基于机器学习的方法

基于机器学习的自然语言处理算法绝大部分采用有监督分类算法,将自然语言处理任务转化 为某种分类任务,在此基础上根据任务特性构建特征表示,并构建大规模的有标注语料,完成模型训练。
其基本流程如图 所示,通常分为四个步骤:数据构建、数据预处理、特征构建以及模型学习。

 (1) 数据构建阶段主要工作是针对任务的要求构建训练语料,也称为语料库(Corpus)。

例如:要设计一套针对制度法规文档主力的机器学习模型,就需要提前准备大量的制度法规语料库。

(2) 数据预处理阶段主要工作是利用自然语言处理基础算法对原始输入,从词汇、句法、结构、
语义等层面进行处理,为特征构建提供基础,根据特征构建的需求,还可能需要进行词性标注、句法分析、语义角色标注等。
例如:对于前期准备的大量制度法规语料库进行分词、词性标注等。
(3) 特征构建阶段主要工作是针对不同任务从原始输入、词性标注、句法分析、语义分析等结果和数据中提取对于机器学习模型有用的特征。
特征定义一般都是由人工完成,根据经验选取适合的特征,这项工作又被称为特征(属性)工程(Feature Engineering )。

在计算机科学和人工智能领域,feature(特征)是指用于描述和区分不同类别数据的基本属性

例如,在图像识别任务中,每个像素点的亮度、颜色和纹理都可以被视为图像的一个特征;在自然语言处理任务中,每个单词的词性、语法结构和语义信息都可以被视为文本的一个特征。

特征工程(Feature Engineering)是机器学习和数据挖掘领域的一个重要步骤,它涉及从原始数据中提取、选择和构建合适的特征,以便更好地描述和区分不同的类别数据。特征工程的质量直接影响到模型的性能和准确性。

(4) 模型学习阶段主要工作是根据任务,选择合适的机器学习模型,确定学习准则,采用相应
的优化算法,利用语料库训练模型参数。
机器学习三要素:模型、学习准则、优化算法。
机器学习模型有很多类型,从不同的维度可以分为:分类模型、回归模型、排序模型、生成式模型、判别式模型、有监督模型、无监督模型、半监督模型、 弱监督模型等等类别,需要根据任务的目标以及特性选择适合的模型。
  • 难点1:基于机器学习方法的自然语言处理算法需要针对任务构建大规模训练语料,以人工特征构建为核心。整个流程中需要人工参与和选择的环节非常多,并且这些选择非常依赖经验,缺乏有效的理论支持。
  • 难点2:开发一个自然语言处理算法的主要时间消耗在数据预处理、特征构建以及模型选择
    和实验上。对于复杂的自然语言处理任务需要在数据预处理阶段引入很多不同的模块,这些模块之间需要单独优化,其目标并不一定与任务总体目标一致。其次多模块的级联会造成错误传播,前一步错误会影响后续的模型,这些问题都提高了基于机器学习的方法实际应用的难度。

3、基于深度学习的方法

深度学习( Deep Learning )方法通过构建有一定 深度 的模型,将特征学习和预测模型融合,
通过优化算法使得模型自动地学习出好的特征表示,并基于此进行结果预测。
基于深度学习 方法的流程简化很多,通常仅包含数据构建、数据预处理和模型学习三个部分。同时,在数据预处理方面也大幅度简化,仅包含非常少量的模块。

4、基于大模型的方法

大模型是大规模语言模型( Large Language Model)的简称,2020 年 Open AI 发布的 GPT-3 模型的规模达到了 1750 亿,Google 发布的 PaLM 模型的参数量达到了 5400 亿。这种参数量级的语言模型很难再延续此前针对不同的任务而使用的预训练微调范式。因此,研究人员们开始探索使用提示词(Prompt)模式完成各类型自然语言处理任务。
基于大模型的自然语言处理的流程转换为:
大规模语言模型构建、通用任务能力训练以及特定任务使用三个主要步骤。

 

该方法突破了传统自然语言处理需要针对不同任务进行设计和训练的瓶颈,任务可以不需要预先给定,仅依赖很少的任务特定标注数据,或者完全不依赖任何任务的有监督数据就可以得到相应结果。
  • 缺陷:模型参数量太大导致训练和使用成本过高
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值