自然语言处理考点总结

非洲企鹅

已于 2023-06-28 21:21:42 修改

阅读量308

点赞数 6

文章标签：自然语言处理人工智能

于 2023-06-28 15:46:19 首次发布

本文链接：https://blog.csdn.net/m0_70811490/article/details/131438444

版权

已经更新完毕，只有冒号的地方内容较多，需要自己去认识和了解。

第一章：
对人工智能的发展包含，运算智能，感知智能，认知智能三个阶段。

从研究对象的角度：
自然语言处理主要研究：名实知人之间的关系。
名指的是语言符号的特征。实指的是客观世界存在的实体或主观的概念。
知指知识。包含常识和领域知识。人指语言的使用者。

从研究层次的角度：由浅入深分为了形式语义推理语用四个层次。

研究问题可分为分类解析匹配生成

语料库：指存放语言资料的数据库，是基于统计的自然语言处理方法的基础。
词法分析
自动分词：相对于英语，汉语日语为代表的孤立语黏着语，中间是没有空格等显示词汇边界的符号
因此，对于这些语言的自动分词，成了自然语言处理中不可或缺的一步。
词性标注：判断句中词的词性。
命名实体识别：识别句子中的人名，地名，组织机构名并将其分类。

句法分析主要分为了短语结构分析和依存关系分析。

语义分析
词义消歧，语义角色分析，语义依存分析。
词义消歧：确定多义词在给定上下文中的含义。
语义角色标注：对每个谓词判断其论元。
语义依存分析：一种深层次的语法分析，不仅限于对谓词分析判断语言，扩展到了句子中每个词的
语义关系。

机器翻译：将源语言的语义转化为另一种语义。
情感分析：分析语义之间的情感。分为三类：情感信息的抽取。分类。检索归纳。
信息提取：从自然语言中抽取指定的实体，关系，事件等事实信息。
问答系统：代替用户进行繁琐的操作，将信息直接返回。

流派：
基于深度，基于统计学习，基于深度学习的自然语言处理。

自然语言处理的挑战：
标注数据不足是所有有监督学习的自然语言处理方法所面临的根本问题。
如何定义和建模常识知识是自然语言处理在研究和应用上的又一个挑战。
还面临着深度学习方法在自然语言处理任务上的解释问题，知识工程与统计/深度学习方法的融合问题
，不同领域/不同量级的语义资源迁移学习和处理问题，文本或自然语言的推理问题，对话语和语用的
深入研究问题以及融合多模态信息的自然语言处理新方法等问题。

第二章
人类语言的符号性与层级性

人类语言系统符号性的三个特点
语言系统的符号是形式和意义的对应结合体
符号能指与所指关系是约定的
基本符号单位可以进一步分解为无意义的基本语音单位

语音系统

词汇系统的最小单位称为语素或词素。

图2.7 p34

句法结构树包含四个要素：层次关系范畴中心

意义组合原则体现了由内求异的思路意义情景原则体现了向外求义的思路。

给句子释义的另一种方式是回答问题。这种方式试图在句子的符号系统和外部世界之间建立对应
关系。

语言的歧义性。一个语言单位，有向前向后组合的问题。这可以成为语言单位组合中的边界歧义。
语言成分的组合还可能发生句法结构关系歧义语义关系歧义语义指向关系歧义等不同类型的歧义。

语言的创造性。就已经存在一种形式---意义，说话者处于节省编码的目的，可以对原表达形式中
的部分符号进行删减，从而形成新的表达形式

隐喻是基于相似性概念范畴之间建立联系转喻是基于相关性在概念范畴之间建立联系。

第三章
文法
形式文法：
形式语言：

自动机

第四章
机器学习三个基本要素：
模型
学习准则：0-1损失函数平方损失函数交叉熵损失函数
优化算法

泛化与正则化
过拟合：模型在训练集上错误率很低，但在未知数据上错误率很高。这就是所谓的过拟合。

机器学习算法的类型
监督学习：回归，分类，结构化学习。
无监督学习：从不包含目标标签的训练样本中自动学习到一些有价值的信息。
强化学习：智能体根据环境的状态做出一个动作，并得到及时或延时的奖励。智能体在学习中不断学习并调整策略，以取得最大化的期望总回报。

二分类：二分类的类别标签y只有两种取值，通常设为{+1，-1}。

多分类：指分类的列别数C大于2，一种常用的多分类模型是使用C个判别函数：

感知器：感知器是一种广泛使用的线性分类器。可以看做是最简单的人工神经网络，有与人工神经元相对应的部件。如权重（突触），偏置（阈值）激活装置（细胞体）输出为1或者-1.

支持向量机：经典的二分类算法。找到的分割超平面具有更好的稳健性。

循环神经网络：具有短期记忆能力的神经网络。神经元不但可以接受其他神经元的信息，也可以接受自身的信息，形成具有环路的网状结构。

长短期记忆网络：是循环神经网络的一个变体，可以有效解决简单循环神经网络的梯度爆炸或消失问题。

注意力机制：只选择一些关键信息输入进行处理，来提高神经网络的效率。

第五章：文本表示
对应词在词表中位置的那一维值为1，其余维值均为0.这种表示称为独热表示，或者独热编码。

布朗聚集：在词的布朗聚集中，可以通过比较不同长度的前缀来表示不同粒度下词之间的语义相关度。

分布式表示：词被表示为低维且稠密的实值向量。

CBOW模型：输入层，隐含层，输出层。

层次方法：
负采样方法：

基于负采样的词向量学习：目前介绍的词向量学习均以词向量学习模型为建模目标。

递归神经网络：用于实现递归计算的网络结构被称为递归神经网络。

第六章语言模型
基于频次统计的方法虽然简单易操作，但随着句子长度增加，估计参数数量呈指数增长。
为了合理估计这些参数所需的数据规模也随之增长。这一现象被称为维度灾难。

下一个词的出现只依赖于离他最近的n-1个词。该假设被称为马尔科夫假设。满足这种假设的模型
被称为n元语法或n元文法模型。
二元语言模型也被称为一阶马尔可夫链。

平滑
折扣法：基本思想是损有余而补不足。
加1平滑是一种典型的折扣法，也被称为拉普拉斯平滑。

插值法：n-gram模型中，模型考虑上下文历史越充分。而与此同时，模型面临的数据稀疏问题也
越严重。这时，使用折扣法来结合低阶n-gram模型与高阶n-gram模型来进行平滑。

双向语言模型预训练：从两个方向建模比只从一个方向建模能提供更丰富的上下文信息。

掩码语言模型预训练：不是一种通常意义上的语言模型，他的工作方式类似一种完形填空过程。

第七章：词法分析
词通常是由语素或词素构成。
一个词的语素主要分为两类：原形和词缀。

英语词形变化概述：曲折变化派生变化组合附着

基于FST的词形分析：有限状态转换机。有限状态转移机是有限状态机的扩展。

基于字的统计模型：基于统计的中文分此算法通常使用序列标注模型建模。

第八章：句法分析
概述：句法分析是自然语言处理中关键一步。它实际上是非常复杂的任务，目前这一工作的开展往往以来某个特定的形式语言文法，是句法简单化，从而使计算机能对自然语言的句子进行有效的语法分析。

短语结构句法分析：一般又称成分句法分析，其句法结构建立在上下文无关文法的基础之上。

第九章：语义分析
事件语义：一般认为，句子相对完整的自然的基本意义表达单位，要全面理解自然语言语义，在词义分析的基础上，还需要理解句子的语义，而句子的各种复杂的语义侧面中，最为基础的是句子中主要动词形容词
名词与其共现的成分之间的关系所描述的基本事件语义。

基于图表征的语义分析：

第十章：信息抽取
基于统计的命名实体识别：
目前有两类处理命名实体识别的任务，一类是将NER看做分类问题，另外一类将NER看做序列标注问题。

基于深度学习的命名实体识别：

基于规则的实体关系抽取：

PCNN：在卷积层计算出每个位置对应的隐层表示后，按照两个实体的位置将橘子分成三个部分，并对每个部分分别做最大池化。

事件抽取基本概念
事件类型识别
事件元素抽取

基于规则的事件抽取：基于规则的方法又称为基于模式匹配的方法，规则是对信息表述的一种描述性抽取规则。

基于规则事件的元素抽取：框架核心主要有三部分
规则获取：该模块负责将种子放在互联网上去检索，并获得事件实例。根据实例，按照一定规则生成初始事件元素抽取规则。
规则泛化：初始事件元素抽取规则由于过于死板，导致会遗漏掉很多时间元素的匹配。因此需要将原有的事件元素抽取规则进行一定程度的泛化，使其在准确率变不变的情况下提高召回率。
规则过滤：经泛化后的规则会在一定程度上引入了噪声，因此，还需要一套过滤方法，尽量减少由于泛化带来的噪声。

第十一章篇章分析
篇章，也称为话篇或话语，是指由一系列字句或句子构成的连贯的语言整体单位。
连贯是篇章的本质特征。
衔接是指篇章不同部分之间的语法和词汇联系。
语法衔接包括指代，替代，省略和连接等。
词汇衔接则是通过词汇间的语义关系将文本单元联系在一起，因而也称为词汇内聚性。

共指消解可粗略的分为三个步骤，识别候选先行语；根据约束策略筛选先行语；根据优先策略确定最佳先行语。

基于规则的方法：Hoobs算法中心理论算法准确率优先的多轮规则系统

基于监督学习的方法：指称对模型模型训练指称排序模型基于实体的模型

基于聚类的方法是一种不依赖训练数据的无监督学习方法。

TexTiling算法主要分为三个步骤：分词与单词序列切分单词序列边界的词汇分数计算

第十二章
情感是一个相对笼统的概念。在计算机科学领域中，情感和倾向性通常定义为个体对外界事物的态度和观点倾向性。
情感模型
基于类别空间的情感模型
基于维度空间的情感模型
基于个性化的情感模型
基于认知机制的情感模型

观点识别/主客观分类的目标是判别给定的文本中是否包含了情感的或者观点，以确定当前文本是主观文本还是客观文本。

情感极性判别：
情感强度判别：

情绪分类
粒子级别：篇章级，句子级，属性级三个级别。

基于有监督学习的篇章级情感分类方法：传统统计机器学习模型：朴素贝叶斯，支持向量机，最大熵。
深度学习模型：卷积神经网络，循环神经网络等。

第十三章：文本生成
文本到文本的生成
压缩式文本：
平行式文本：
扩展式文本：