《自然语言处理入门》笔记

概率图模型(Probabilistic Graphical Model，PGM)是用来表示与推断多维随机变量联合分布p(x,y)的强大框架，它利用节点V来表示随机变量，用边E连接有关联的随机变量，将多维随机变量分布表示为图G=(V,E)。这样可以使整个图分解为子图再进行分析。子图中的随机变量更少，建模更加简单。而有向图模型和无向图模型就是分解图的方法

有向图模型(Directed Graphical Model，DGM)按事件的先后因果顺序将节点连接为有向图。如果事件A导致事件B，则用箭头连接两个事件A→B

无向图模型则不探究每个事件的因果关系，不涉及条件概率分解。无向图模型的边没有方向，仅仅代表两个事件有关联。

6.2条件随机场

条件随机场(conditional Random Field，CRF)是一种给定输入随机变量x，求解条件概率p(y | x)的概率无向图模型。用于序列标注时，特例化为线性链(linear-chain)条件随机场。此时，输入输出随机变量为等长的两个序列

6.2.1线性链条件随机场

（1）条件随机场和结构化感知机的特征函数完全一致

（2）结构化感知机对某预测打分越高，条件随机场给予该预测的概率也越大

（3）条件随机场和结构化感知机的预测算法一致，都是维特比算法

6.2.3条件随机场与结构化感知机的对比

相同点：特征函数多；权重向量相同；打分函数相同；预测算法相同；同属结构化学习

不同点：训练算法不同，这是两者准确率差异的唯一原因

感知机算法属于在线学习，每次参数更新只使用一个训练实例。而没有考虑整个数据集，所以在线学习会顾此失彼。

条件随机场对数似然函数及其梯度则定义在整个数据集之上，每次参数更新都是全盘考虑

第7章词性标注

7.1词性标注概述

7.1.1什么是词性

词性(Part-Of-Speech，POS)：单词的语法分类，也称为词类。提供词语的抽象表示

词性标注集：所有词性的集合

7.1.2词性的用处

可以通过OOV的词性猜测用法，而不至于将所有OOV混为一谈(当成同一特殊标记UNK)

7.1.3词性标注

词性标注：为句子中每个单词预测一个词性标签

7.1.4词性标注模型

1、序列标注模型可用来做词性标注

2、词性标注既可以看作中文分词的后续任务，也可以与中文分词集成为同一任务

3、联合模型(joint model)：同时进行多个任务的模型

由于综合了多种监督信号，联合模型在几乎所有问题上都优于独立模型，但实际应用中并不理想。原因：中文分词语料库远远多于词性标注语料库；联合模型特征数量一般是独立模型的数十倍

7.2词性标注语料库与标注集

7.2.1《人民日报》语料库与PKU标注集

7.2.2国家语委语料库与863标注集

7.2.3《诛仙》语料库与CTB标注集

7.3序列标注模型应用于词性标注

7.3.1基于隐马尔可夫模型的词性标注

隐马尔可夫模型可以应对词性标注中的兼类词问题，但无法应对OOV词性标注问题

7.3.2基于感知机的词性标注

具备识别OOV词性的能力

7.3.3基于条件随机场的词性标注

7.3.4词性标注评测

第8章命名实体识别

8.1概述

8.1.1命名实体

命名实体(named entity)：文本中描述实体的词汇。

特点：数量无穷；构词灵活；类别模糊

8.1.2命名实体识别

命名实体识别(Named Entity Recognition，NER)：识别出句子中命名实体的边界与类别。是一个统计为主，规则为辅的任务

8.3命名实体识别语料库

8.3.1 1998年《人民日报》语料库

因为1998年《人民日报》语料库颗粒度小，适合作为命名实体识别语料库。

并非所有复合词都是命名实体

8.3.2微软命名实体识别语料库(MSRA Named Entity Corpus，MSRA-NE)

8.5基于序列标注的命名实体识别

命名实体识别可以看作分词与词性标注任务的集合

8.5.1特征提取

特征模板确定后，就可以训练序列标注模型了

8.5.2基于隐马尔可夫模型序列标注的命名实体识别

隐马尔可夫模型无法利用词性特征

8.5.3基于感知机序列标注的命名实体识别

8.5.4基于条件随机场序列标注的命名实体识别

8.5.5命名实体识别标准化评测

准确率与评测策略、特征模板、语料库规模相关

第9章信息抽取

9.1新词提取

9.1.1概述

新词：OOV

9.1.2基本原理

新词提取：首先提取出大量文本（生语料）中的词语，无论新旧。然后用词典过滤掉已有的词语，于是得到新词

9.1.3信息熵

信息熵(entropy)：某条消息所含的信息量。反映的是听说某个消息后该事件的不确定性的减少量

对于离散型随机变量X，信息熵的公式为：(对数函数的底为2是单位为比特)

具体到新词提取中，给定字符串S作为词语备选，X定义为该字符串左边可能出现的字符（简称左邻字），则称H(x)为S的左信息熵，类似的，定义右信息熵H(Y)

左右信息熵越大，说明字符串可能的搭配就越丰富，该字符串就是一个词的可能性就越大。但还要考虑词语内部片段的凝聚程度，这种凝聚程度由互信息衡量

9.1.4互信息

总词频并不影响互信息大小的排名

有了左右信息熵和互信息之后，将两个指标低于一定阈值的片段过滤掉，剩下的片段按频次降序排列，截取最高频次的N个片段

9.1.5实现

9.2关键词提取

提取文章中重要的单词，而不限于词语的新鲜程度

1、无监督关键词提取算法：词频、TF-IDF和TextRank

2、单文档算法：词频、TextRank

3、多文档算法：TF-IDF。利用了其他文档中的信息辅助决定当前文档的关键词，同时容易受到噪声干扰

9.2.1词频统计

文章中反复出现的词语并不一定是关键词，在进行词频统计之前要进行停用词过滤

词频统计流程：分词、停用词过滤、按词频取前n个

9.2.2 TF-IDF

TF-IDF适用于大型语料库中，当我们没有大型的语料库或者存储IDF的内存，同时又想改善词频统计的效果，则可以使用TextRank算法

9.2.3TextRank

TextRank是PageRank在文本上的应用

9.3短语提取

利用互信息和左右信息熵，可以将新词提取算法拓展到短语提取。将新词提取中的字符替换为单词，字符串替换为单词列表

（即新词提取考虑的是提取单词，而短语提取考虑的是提取单词组合）

9.4关键句提取

9.4.1 BM25

BM25是TF-IDF的一种改进变种。TF-IDF衡量的是单个词语在文档中的重要程度。而BM25衡量的是多个词语与文档的关联程度

9.4.2 TextRank

第10章文本聚类

10.1概述

10.1.1聚类

聚类(cluster analysis)：将给定对象的集合划分为不同子集的过程。目标是使得每个子集内部的元素尽量相似，不同子集间的元素尽量不相似。这些子集被称为簇(cluster)，一般没有交集

1、硬聚类(hard clustering)：每个元素被确定地归入一个簇（使用更频繁）

2、软聚类(soft clustering)：每个元素与每个簇都存在一定地从属程度（隶属度），只不过该程度有大有小

硬聚类中从属关系是离散地，非常强硬。而软聚类中的从属关系则用一个连续值来衡量，比较灵活

3、划分(partitional)聚类：聚类结果是一系列不相交的子集

4、层次(hierarchical)聚类：聚类结果是一棵树，叶子节点是元素，父节点是簇

10.1.2聚类的应用

聚类通常用于数据的预处理，或归档相似的数据

数据量很大、标注成本过高时，聚类常常是唯一可行的方案

10.1.3文本聚类

1、文本聚类或文档聚类(text clustering或document clustering)：对文档进行聚类分析

2、基本流程：特征提取、向量聚类

3、聚类的对象：抽象的向量（一维数据点）。

4、特征提取：将文档表示为向量

10.2文档的特征提取

10.2.1词袋模型

词袋(bag-of-words)：将文档想象为一个装有词语的袋子，通过袋子中每种词语的计数等统计量将文档表示为向量

由于词袋模型不考虑词序，损失了词序中蕴含的语义。但在实际工程中，词袋模型依然是一个和很难打败的基线模型

10.2.2词袋的统计指标

词袋模型除了选取词频作为统计指标外，常见的统计量还包括：

（1）布尔词频：词频非零则取值为1，否则为0

（2）TF-IDF

（3）词向量：如果词语本身也是某种向量的话，则将所有词语的词向量求和作为文档向量

词频向量适合主题较多的数据集；布尔词频适用于长度较短的数据集；TF-IDF适用于主题较少的数据集；词向量适用于处理OOV问题严重的数据集

神经网络模型也能无监督地生成文档向量，比如自动编码器和受限玻尔兹曼机等。且得到地文档向量一般优于词袋向量，但代价是计算开销大

10.3 k均值算法

10.5标准化评测

10.5.1 P、R和F1值

J：簇；i：类别；：簇j中类别i文档的数目；：簇j中的文档总数；：类别i中的文档总数

第12章依存句法分析

语法分析(syntactic parsing)：发生在词法分析之后，目标是分析句子的语法结构并将其表示为容易理解的结构（通常是树形结构）

12.2依存句法树

依存句法树关注的是句子中词语的语法联系，并将其约束为树形结构

12.2.1依存句法理论

1、从属词(dependent)：如果一个词修饰另一个词，称修饰词为从属词

2、支配词(head)：如果一个词修饰另一个词，称被修饰词为支配词

3、依存关系：(dependency relation)：从属词和支配词之间的语法关系

4、依存句法树(dependency parse tree)：将一个句子中所有词语的依存关系以有向边的形式表示出来，就会得到一棵树

5、依存句法树的特点：

（1）根节点唯一性：有且只有一个词语(ROOT，虚拟根节点，简称虚根)不依存于其他词语

（2）连通：除虚根外的所有单词必须依存于其他单词

（3）无环：每个单词不能依存多个单词

（4）投射性(projective)：如果A依存于B，那么位置处于A和B之间的单词C只能依存于A、B或AB之间的单词

12.2.2中文依存句法树库

依存句法树库：由大量人工标注的依存句法树组成的语料库。最有名的是UD(Universal Dependencies)。另一份著名的语料库为CTB，不过需要额外利用一些工具将短语结构树转换为依存句法树

12.2.3依存句法树库的可视化

1、南京大学汤光超的Dependency Viewer，适用于windows用户

2、基于web的跨平台工具：brat标注工具

12.3依存句法分析

依存句法树(dependency parsing)：输入词语和词性，输出一棵依存句法树

12.4基于转移的依存句法分析

12.4.1 Arc-Eager转移系统

转移系统(transition system)：负责制定所有可执行的动作以及相应的条件

12.4.2特征提取

12.4.3 Static和Dynamic Oracle

对基于转移的依存句法分析器而言，它学习和预测的对象是一系列转移动作。然而依存句法树库是一棵树，并不是现成的转移动作序列。这时候就需要一个算法将语料库中的依存句法树转换为正确的(gold)转移动作序列，以供机器学习模块学习。这种正确的转移动作序列称为规范(oracle)，其质量好坏直接影响到机器学习模块的学习效果

1、静态规范(static oracle)：人工编写一些规则为每棵树生成一个规范

2、动态规范(dynamic oracle)：不显式地输出唯一规范，而是让机器学习模型自由试错，一旦无法拼装出正确语法树，则惩罚模型

至于如何判断一个状态c执行某个动作后是否抵达正确句法树，只需根据该动作以及该状态的栈与队列进行判断即可

实现了动态规划的结构化感知机训练算法的流程如下：

（1）读入一个训练样本，提取特征。创建ArcEager的初始状态，记做c

通过在训练时故意让模型试错，可以提高模型的稳健性

虽然动态规划使得模型能够自由搜索一条可达正确句法树的转移路径，然而每次转移动作都是贪心地选取分数最高的备选动作，而没有考虑到全局转移动作构成序列的分数之和。

12.5依存句法树分析API

12.5.2标准化评测

12.6案例：基于依存句法树的意见抽取

即提取商品评论中的属性和买家评价

参考文献：《自然语言处理入门》 by 何晗(@hankcs)

宁静_致远_

关注

5
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
0
评论
《自然语言处理入门》笔记

目录第一章新手上路1.1自然语言与编程语言1.1.1词汇量1.1.2结构化1.1.3歧义性1.1.4容错性1.1.5易变性1.1.6简略性1.2自然语言处理的层次1.2.1语音、图像和文本（第一层）1.2.2中文分词、词性标注和命名实体识别（第二层）1.2.3信息抽取（第三层）1.2.4文本分类和文本聚类（第三层）1.2.5句法分析（第三层）1.2.6语义分析和篇章分析（第四层）1.2.7其他高级任务1.3自然语言处理的流派1.3.1
复制链接

扫一扫