NLP之序列标注学习-CSDN博客

本文链接：https://blog.csdn.net/qq_44853197/article/details/118660001

在讲序列标注学习之前，我们需要了解NLP中关系抽取Relation Extraction系统通常分为以下三个模块：

而端到端的关系抽取系统将实体和关系进行联合的训练，也就是Joint Extraction of Entities and Relations。我们输入一个句子，可以输出一个（头实体，关系，尾实体）的三元组。联合抽取模型是管道模型PineLine的改进，改进了误差传递和实体冗余等管道模型的缺陷。

经典的关系抽取任务设定：
预定义关系类型，给定一句话和句中两个实体，对该句子表达的两实体间的关系进行分类。

关系抽取模型的发展：
1、Pattern Mining（模板匹配，需要花很多时间设计模板）>>
2、Feature- Based Methods（特征模板）>>
3、 Kernel- Based Methods（SVM）>>
4、Graphical Models（概率图模型）>>
5、 Neural Models

以上内容部分参考自：智源论坛Live | 清华大学高天宇：实体关系抽取的现状和未来
 以下内容主要参考自：b站【NLP经典论文】【基于神经网络的序列标注：BiLSTM+CNNs+CRF】

1、什么是序列标注

序列标注 Sequence Labeling，即给定一个输入序列，使用模型对这个序列的每一个位置标注一个相应的标签，是一个序列到序列的过程。
序列标注是自然语言处理中最常见也是最基础的的问题，常见的子任务包括 (中文)分词 、命名实体识别(NER) 和词性标注等等。
--------------------------------------------------------以下以命名实体识别为例子讨论序列标注的具体问题-------------------------------------------------------

2、什么是命名实体识别

2.1 定义

       命名实体识别 ( Named Entities Recognition, NER )的目的是识别语料中人名、地名，组织机构名等命名实体。NER是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。
       命名实体是命名实体识别的研究主体，一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)。
       评判一个命名实体是否被正确识别包括两个方面:实体边界是否正确;实体类型是否正确。其主要错误类型包括文本正确，类型错误;反之，文本边界错误，而其包含的主要实体词和类型标记也可能正确。

2.2 发展历史

基于规则的NER >>
基于特征模板的NER，如生成模型HMM、判别模型 >>
基于神经网络的NER，如Bi-LSTM-CRF、Lattice LSTM

2.3 模型/方法介绍

2.3.1 基于规则的NER

       利用手工编写的规则，将文本与规则进行匹配来识别出命名实体。
       例如，对于中文来说，"说”、”老师” 等词语可作为人名的下文，“大学”、”医院"等词语可作为组织机构名的结尾，还可以利用到词性、句法等一系列信息帮助我们做判断。
       但是，在构建规则的过程中往往需要大量的语言学知识，不同语言的识别规则不尽相同，而且需要谨慎处理规则之间的冲突问题;此外，构建规则的过程费时费力、可移植性不好。

2.3.2 基于特征模板的NER

       统计机器学习方法将NER视作序列标注任务,利用大规模语料来学习出标注模型，从而对句子的各个位置进行标注。常用的应用到NER任务中的模型包括生成式的HMM(隐马尔科夫模型)和判别式的CRF (条件随机场)等。
       比较流行的方法是特征模板+CRF的方案:特征模板通常是人工定义的一些二值特征函数试图挖掘命名实体内部以及上下文的构成特点。对于句子中的给定位置来说，提取特征的位置是一个窗口，即上下文位置。而且，不同的特征模板之间可以进行组合来形成一个新的特征模板。我的理解是通过统计机器学习方法，能预先从语料库中学习到实体与实体之间相互匹配的位置关系，进而构成特征模板。
       CRF的优点在于其为一个位置进行标注的过程中，可以利用到此前已经标注的信息，并利用Viterbi解码来得到最优序列。对句子中的各个位置提取特征时，满足条件的特征取值为1，不满足条件的特征取值为0;然后把特征喂feed给CRF，进而在训练阶段建模标签的转移，并在推断( inference )阶段为测试句子的各个位置做标注。

2.3.3 基于神经网络的NER

近年来，随着词向量的出现，神经网络成为可以有效处理许多NLP任务的模型。基于神经网络的命名实体识别模型首先将词表示为稠密的向量表示，随后将词向量序列输入到RNN中，用神经网络自动提取特征后，来预测每个位置的标签。这种方法使得模型的训练成为一个端到端的整体过程，不再依赖特征工程，是一种数据驱动的方法。
这种方法的一个缺点是对每个词打标签的过程中是独立的分类，不能直接利用上文已经预测的标签(只能靠隐状态传递上文信息)，进而导致预测出的标签序列可能是非法的，例如，标签B-PER后面是不可能紧跟I-LOC的，由此也就出现了Bi-LSTM-CRF的方法。
----------------------------------------------------------------------------------持续更新ing----------------------------------------------------------------------------------