AAAI2019_A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks

最新推荐文章于 2022-10-26 20:23:43 发布

All in .

最新推荐文章于 2022-10-26 20:23:43 发布

阅读量872

点赞数

分类专栏：论文笔记文章标签： nlp

本文链接：https://blog.csdn.net/sunshine_10/article/details/118379412

版权

论文笔记专栏收录该内容

20 篇文章 8 订阅

订阅专栏

本文提出了一种分层监督的多任务学习模型，该模型在命名实体识别、实体提及检测和关系提取等任务上取得了最先进的结果。模型通过在一组精心选择的语义任务上进行多任务学习，引入归纳偏差，实现在共指消解上取得竞争性结果。

摘要由CSDN通过智能技术生成

论文

摘要

为了评估是否可以利用多任务学习来学习可用于各种自然语言处理(NLP)下游应用的丰富表示，已经投入了大量的工作。然而，目前仍缺乏对多任务学习产生显著影响的背景的了解。
在这一工作中，我们引入了一个分层模型，该模型在一组精心选择的语义任务上进行多任务学习。通过监督模型底层的一组低级任务和顶层的一组较复杂的任务，以分层的方式进行训练，引入归纳偏差。
该模型在NER、Entity Mention Detection 和关系提取任务上实现了最先进的结果，不需要人工设计的特征或使用外部NLP工具(如语法分析器)。
分层监督训练在模型的较低层次上产生了一组共享的语义表示。我们发现，从模型的底层移动到顶层时，层的隐藏状态倾向于表示更复杂的语义信息。

介绍

最近的自然语言处理(NLP)模型在很大程度上依赖于丰富的分布式表示(通常是单词或句子嵌入)来获得良好的性能。一个例子是所谓的“通用表示”(Conneau et al. 2017)，它被期望编码一系列不同的语言特征，可转移到许多自然语言处理任务。这种丰富的单词或句子嵌入可以通过在多任务环境中利用不同任务的训练信号来学习。已知，在多任务框架下训练的模型可以利用任务之间的归纳迁移，获得更好的泛化性能(Caruana 1993)。句子嵌入方面的最新研究(Subramanian et al.。2018年；Jernite，Bowman和Sontag 2017)表明，应该对句子的互补方面(例如语法、句子长度、词序)进行编码，以便模型产生能够概括广泛任务的句子嵌入。通过对模型进行一系列不同任务的训练，如机器翻译、情感分类或自然语言推理，可以自然地对表示中的互补方面进行编码。虽然，①选择这一系列不同的任务，以及②控制它们之间的相互作用非常重要，但如文献中所强调的那样，缺乏对①②的更深层次的理解(Caruana 1997;米切尔1980;粗鲁的2017)。
这项工作通过在一个单一模型中结合四个基本的NLP任务来探索这一研究方向：命名实体识别、实体提及检测(有时也被称为提及检测)、共指消解和关系抽取。任务的选择是由这些任务共享的相互依赖性所驱动的。
在这里插入图片描述

在表1中，我们给出了三个简单的例子来举例说明为什么这些任务应该彼此受益。例如，在最后一个例子中，知道the company 和Dell指的是相同的现实世界实体，Dell更可能是一个组织而不是一个人。

之前的几部作品(Y Ang，Salakhutdinov和Cohen 2016；Bingel和Søgaard 2017)避免了NLP任务之间的语言等级问题。认为一些任务(所谓的“低层”任务)很简单，需要对模型的输入进行有限的修改，而其他任务(所谓的“高层”任务)则需要对输入进行更深层次的处理，并且可能需要更复杂的体系结构。据此(Hashimoto et al.。2017年；Søgaard和Goldberg 2016)，在任务之间引入了层次结构，以便在体系结构的较低层监督低级任务，同时在较深层保持更复杂的交互。与以前的工作(Li和Ji 2014；Miwa和Bansal 2016)不同，我们的整个模型可以在没有任何外部语言工具或人工设计的特征的情况下进行端到端的训练，同时在关系提取和实体提及检测方面都提供了更强的结果。

本文的主要贡献如下：

提出了一种多任务体系结构，将目前尚未研究的四个不同任务组合在一起。该体系结构使用神经网络，不涉及外部语言工具或手工设计的功能。我们还提出了一种新的多任务学习抽样策略–比例抽样。
通过对命名实体识别、关系提取和实体提及检测等任务使用简单的模型，我们证明了该体系结构可以在命名实体识别、关系提取和实体提及检测等任务上产生最先进的结果。这表明嵌入的信息是丰富的，涵盖了多种语言现象。
研究了多任务学习对①训练速度和②在分层模型中学习的偏向类型的影响。

模型

在本节中，我们将从体系结构的较低层次开始描述我们的模型，并逐步上升到顶层。我们的模型通过监督模型体系结构底层的低级任务(假设需要更少的知识和语言理解)和监督更高层次的高级任务，在任务之间引入了分层归纳偏差。模型的体系结构如图1所示。接下来(Hashimoto et al. 2017)，我们使用快捷连接，以便顶层可以访问底层表示。

在这里插入图片描述

Words embeddings

我们的模型将输入句子 $s=\left( w_1,w_2,...,w_n \right)$ 的单词 $w_t$ 编码为三种不同类型嵌入的组合。我们表示这三个嵌入 $g_e$ 的级联。

Pre-trained word embeddings:我们使用GloVe(Pennington、Socher和Manning 2014)预先训练的词级嵌入。这些嵌入在训练过程中会进行微调。
Pre-trained contextual word embeddings:我们还使用上下文化的Elmo嵌入(Peters等人。2018年)。这些单词嵌入与GloVe单词嵌入的不同之处在于，每个标记由作为整个句子的函数的向量表示(因此，单词可以具有不同的表示，这取决于它被提取出来的句子)。这些表示由双向语言模型的隐藏状态给出。ELMO嵌入已被证明在多个NLP任务中提供最先进的结果(Peters等人。2018年)。
Character-level word embeddings：据此(Chiu和Nichols 2015;Lample et al. 2016)，我们使用字符级单词嵌入来提取字符级特征。具体来说，我们使用卷积神经网络(CNN)(然后是一个最大池化层)以便于训练，因为基于循环神经网络的编码并没有显著优于CNN，而训练的计算成本更高(Ling et al. 2015)。

NER

模型的第一层由命名实体识别标签监督。NER的目标是识别序列中提及的命名实体，并将其分类为预定义的类别。根据以前的工作(Chiu和Nichols 2015；Lample et al.。2016)标记模块包含基于RNN的编码层，其后是基于条件随机场的序列标记模块(Lafferty，McCallum和Pereira 2001)。我们使用多层双向LSTM(长短期存储器)作为编码器。编码器将拼接的单词嵌入 $g_e$ 作为输入，并产生(序列)嵌入 $g_ner$ 。具体地说，将BiLSTM的顶层的后向和前向隐藏状态串联，然后将其馈送到序列标记层。我们采用BILOU (Beginning, Inside, Last, Outside, Unit)标记方案。标记决策使用CRF建模，它明确地说明了相邻标记之间的交互。

实体提及检测(EMD)

模型的第二组层使用实体提及检测标签进行监督。EMD在精神上与NER相似，但更一般，因为它的目标是识别与现实生活实体相关的所有提及，而NER只关注指定的实体。
例如：

$\left[ The\ men \right] _{PERS}\ held\ on\ \left[ the\ \sin king\ vessel \right] _{VEH}\ until\ \left[ the\ passenger\ ship \right] _{VEH}\ was\ able\ to\ reach\ them\ from\ \left[ Corsica \right] _{GPE.}$

在这里，NER注释只会标记Corsica，而EMD需要更深入地理解句子中的实体。

我们使用BILOU方案将提到检测作为序列标记任务。我们使用多层biLSTM，然后是CRF标记层。我们采用了快捷连接的方式，使得每一层都可以建立在较低层次提取的表示法之上。因此，编码器将较低层表示 $\left[ g_e,g_{ner} \right]$ 的级联作为输入，并输出由 $g_{emd}$ 表示的序列嵌入。

能够将我们的结果与之前的工作进行比较(Bekoulis et al. 2018;Miwa and Bansal 2016;Katiyar和Cardie(2017)在EMD上，我们确定实体提到的头，而不是整个提到。

共指消解(CR)

在我们的模型中上升一层，CR的任务是识别引用相同现实实体的提及，并将它们聚在一起(通常在几个句子的级别)。例如，在这个例子中：

$My\ mom\ tasted\ the\ cake.\ She\ said\ it\ was\ delicious.$

有两串： $\left( Mymom,She \right)$ 和 $\left( thecake,it \right)$ 。因此，CR任务需要一种语义表示形式来聚集指向同一实体的提到。

我们使用(Lee et al. 2017)中提出的模型。该模型将文档中的所有跨度视为潜在提及，并使用提及评分器对提及数进行删除，学习区分候选同义提及与其他跨度。提及评分者的输出被提供给提及对记分器，该评分者决定已识别的候选提及是否具有关联。在(Lee et al.2017)中介绍的主要元素，是使用跨度嵌入来组合上下文相关的边界表示和跨度上的注意力机制以指向提及的头部。该模型完全是端到端训练的，不依赖于外部解析器预处理。

关系抽取 (RE)

通过关系抽取(RE)对模型进行最后的监督。RE旨在识别非结构化文本中实体提及之间的语义关系结构。传统的系统将该任务视为两个流水线任务：①识别提及和②对识别的提及之间的关系进行分类。我们使用Bekoulis等人提出的联合解析模型。(2018)，其中提及的选择和这些提及之间的关系的分类是共同进行的。后续工作(Li and Ji 2014;Katiyar and Cardie 2017;Bekoulis et al. 2018)，我们只考虑涉及关系的头部提到的最后一个标记之间的关系。因此，冗余关系不被分类。RE编码器是一个多层BiLSTM，它以 $\left[ g_e,g_{emd} \right]$ 作为输入，输出表示为 $g_{re}$ 。

这些上下文表示送到前馈神经网络。更具体地说，考虑大小都是 $R^l$ 的两个令牌的上下文表示 $g_{ij}$ 和 $g_j$ ，我们计算向量分数：
$t\left( w_i,w_j \right) =V_{\varnothing}\left( Ug_i+Wg_i+b \right)$

其中， $U\in R^{d\times l}$ ， $W\in R^{d\times l}$ ， $b\in R^d$ ， $V\in R^{r\times d}$ 是学习的变换权重。 $l$ 是编码器输出的嵌入的大小， $d$ 是前馈网络的隐藏层的大小， $r$ 是可能关系的数目， $\varnothing$ 是非线性激活函数。关系概率被估计为： $p=\sigma \left( t\left( w_i,wj \right) \right) \in R^r$ ，其中 $p_k\left( 1\le k\le r \right)$ 是token $w_i$ 和 $w_j$ 在类型 $k$ 的关系中被分别标记为 $A R G!$ 和 $A R D 2$ 的概率。模型预测是通过对估计概率进行阈值处理来计算的。通过最小化交叉点损失来训练模型的参数 $V$ 、 $U$ 、 $W$ 和 $b$ 。
在这个公式中，一个提到可能同时涉及到几个关系(例如 $A R G 1$ 和 $A R G 2$ 分别在两个关系中)，这在现实生活中可能发生。如果我们用一个softmax函数替换sigmoid函数，上述情况就是不可能的。

在模型中，CR和RE模块都在同一层上。我们发现在这两个任务之间引入层次关系并没有帮助，因为它们都依赖于更深层次的语义建模，即都试图链接提到。

实验设置

数据集和评估指标

我们使用来自不同来源的标记数据来训练和评估我们的模型。对于NER，我们使用OntoNotes 5.0的英文部分(Pradhan等人。2013年)。继Strubell等人(2017)之后，我们使用了与CoNLL-2012共享任务中用于同义参照分辨率相同的数据分割(Pradhan等人2012)。我们在测试集上使用SPAN Level F1 Score来报告NER上的性能。该数据集涵盖了大量文档类型(包括电话交谈、网络文本、广播新闻和翻译文档)，以及18种实体类型(包括PERSON、NORP、FACILITY、ORGANIZA TION、GPE)。表2详细介绍了语料库的统计数据。我们还评估了在更常用的CoNLL2003NER数据集上的性能。
在这里插入图片描述

对于CR、EMD和RE，我们使用自动内容提取(ACE)程序ACE05语料库(Doddington et al.。2004年)。ACE05语料库是最大的语料库之一，用CR、EMD和RE标注，使其成为一个引人注目的多任务学习数据集。ACE05中的提及标签涵盖7种类型的实体，如个人、组织或地理实体。对于每个图元，提及边界和顶部跨度都有注释。ACE05还引入了6种关系类型(包括组织从属关系(ORG-AFF)、世代从属关系(Gen-AFF)和部分-整体关系(PART-OLL))。我们对RE和EMD使用与之前工作相同的数据拆分(Li和Ji 2014；Miwa和Bansal 2016；Katiyar和Cardie 2017)，并报告F1-分数、精确度和召回率。如果模型正确地预测了被提及的实体的头部及其类型，我们认为该实体被提及是正确的。如果模型正确预测了两个参数的头部和关系类型，我们认为关系是正确的。

对于CR，我们使用不同的分割能够与以前的工作进行比较(Bansal和Klein 2012;Durrett and Klein 2014)。这些分割(在(Rahman和Ng 2009)中引入)使用整个ACE05数据集，留下117个文档用于测试，而有482个文档用于训练(如在(Bansal和Klein 2012)中，我们随机将训练分成70/30的比例，形成一个验证集)。我们评估了两种拆分的参照。我们比较了所有的参照系统使用的常用指标:MUC, B3, CEAFe (CEAFφ4)，以及由官方CoNLL-2012评分者计算的三个指标的平均f1。注意Durrett和Klein使用了包括自动解析器在内的外部NLP工具(Durrett和Klein 2013)。

我们将我们的模型与过去几年中使用图形模型或基于神经网络的模型推动了实质性改进的几个以前的系统进行了比较。据我们所知，这些是最强的基线。

结果讨论

整体表现

在本节中，我们将介绍每个任务和数据集的主要结果。本文提出的层次模型和多任务学习框架在三个任务上取得了较好的结果，即NER(+0.52)、EMD(+3.8)和RE(+6.8)。表3总结了结果并介绍了每个设置的缩写(字母顺序)。在下面的小节中，我们将重点介绍一些有用的观察结果。

在这里插入图片描述
为了能够将我们在CR上的工作与各种基线进行比较，我们使用不同的设置和分割来报告结果。更准确地说，GM指出，黄金提及被用于评估，并且是用参考文献(Rahman和Ng 2009年)引入的ACE2005分割进行训练的。

在实际设置中，使用黄金体积是不可能的，因此放宽这一条件，但是，出现另一个更具挑战的任务，即不使用外部工具或元数据。通过比较设置A和A-GM，可以看出来自一个模块(例如CR)的监督如何在整个架构中流动并影响其他任务的性能：RE的F1分数在A上下降了∼1分。请注意，GM设置会影响训练退出条件(验证指标停止改进)和评估指标(众所周知，在评估时使用金牌提示会提高CR的性能)。同样，A-GM的设置带来了EMD和RE的最先进水平。它使F1EMD和RE分别提高了∼1.5点和∼1点(A与A-GM相比)。这表明，在不同的句子上拥有不同类型的信息比在同一句子上拥有多种类型的信息能带来更丰富的信息(Setup ACoNLL2012-见表4-支持这一说法，因为在另一个数据集上训练的CR会导致在其他三个任务上的类似表现)。
在这里插入图片描述

为了分析模型的哪些组件推动了改进，并了解不同任务和模块之间的相互作用，我们进行了以下工作以及表3和表5中总结的消融研究。

在这里插入图片描述

Single Task vs. Full Models

单任务和多任务设置之间的最大差异在RE任务上观察到(表3中的A与D)，而在NER上的结果在多任务和单任务设置中相似(B与A&A-GM)。这进一步突出了RE模块对从其他任务中学到的信息是如何敏感的。EMD成绩居中，除A-GM和I外，单任务设置比多任务设置给出更高的分数。更令人惊讶的是，CR在单任务训练时可以给出略好的结果(A比E)。

Progressively adding tasks

为了更好地了解每个模块的贡献，我们改变了培训设置中的任务数量。实验表明，使用RE进行训练对NER和EMD都有帮助。加入RE监控使NER的∼分数增加1分，同时提高了EMD的准确率和召回率(F比I)。通过比较设置A和F，发现CR和RE对NER有帮助：NER的Recall和F1比NER高∼1个百分点，而对经验模态发展的影响是负面的。最后，使用CR监督的培训通过提高NER的召回率，同时降低EMD的精确度和F1，从而提高NER(F与J)。换句话说，沿着分层模型流动的信息(例如，编码器的堆叠和快捷连接)使得较高级别的监督能够训练较低级别来学习更好的表示。更广泛地说，每当任务RE与另一个任务合并时，它总是会将F1分数(大部分改进来自于精度)增加2-6个F1点。

Experimenting with the hierarchy order

通过比较F与K、A与L切换NER和EMD的设置，为NER和EMD之间的等级关系提供了证据：低于NER的EMD监管水平不利于整体绩效。这支持了我们的直觉，即层次结构应该遵循任务的内在难度。

Comparison to other canonical datasets

我们还在NER (CoNLL-2003)和CR (CoNLL-2012)的其他两个标准数据集上比较了我们的模型。详细情况见表4。我们没有调整超参数，保持与以前实验中使用的相同的超参数。我们达到了与以前的工作和其他任务相当的性能，这表明我们的改进不是依赖于数据集的。

Effect of the embeddings

我们对单词和字符的嵌入进行了消融实验。结果如表5所示。正如预期的那样，情境化的ELMO嵌入对每个指标都有明显的影响。移除ELMO会导致每个任务的 F1点数下降。此外，字符级嵌入对前缀、后缀、大小写等形态特征非常敏感，对NER、RE和CR也有很大的影响。删除字符级嵌入不会影响EMD，这表明EMD模块可以补偿此信息。CR任务的主要改进来自于B3和Ceafe指标的增加。请注意，删除某种类型的嵌入的强大效果也是使用快捷连接的结果：删除嵌入会直接影响到每个任务模块的输入。

What did the embeddings and encoders learn?

结构使得很难理解嵌入和隐藏状态中实际编码的是什么，以及模型正在使用什么类型的语言信息(如果有的话)来做出特定的预测。为了进一步理解我们的体系结构，我们分析了在各个层的嵌入和隐藏状态中编码的感应偏差。我们跟踪了Conneau等人。(2018)世卫组织引入了10种不同的探测任务1来分析句子嵌入的质量。这些任务旨在通过语义信息评估从表面信息到句法信息的广泛的语言属性。

我们使用一个简单的Logistic回归分类器，它将句子嵌入作为输入，并预测语言属性。我们研究了模型中每个模块特定的单词嵌入(Ge)和隐藏状态表示(biLSTM编码器)。如Conneau等人在(Conneau等人)中所做的那样，通过在最后一层激活的每个维度上取最大值，从编码器的L个隐藏状态计算长度为L的输入序列的语句嵌入。2017年)。句子嵌入是通过对句子的单词进行最大合并，从单词和字符级别的嵌入中获得的。众所周知，平均单词嵌入是句子嵌入的强大基线(Arora，Leung和Ma 2017)，我们也在表6中报告了这一简单过程的结果。

在这里插入图片描述

Results

我们将我们的结果与(Conneau等人)的两条基线进行了比较。2018年)：根据FastText嵌入和SkipThouight句子嵌入计算的词袋(Kiros等人。2015年)。我们将我们模型的基字嵌入Geof与第一个基线进行比较，并将特定于任务的编码器的输出与第二个基线进行比较。第一个观察结果是，单词嵌入已经编码了丰富的表示，在十个探测任务中有七个的准确率高于70%。我们怀疑，通过允许高级任务对丰富的表示进行编码，快捷连接是实现这一良好性能的关键。Bigram Shift的良好性能(与Bov-FastText：+38.8相比)可能来自于对词序敏感的Elmo嵌入的使用。同样的论点也可以解释句子长度的强劲表现。

词语嵌入的结果与编码器表征的结果有显著差异，表明这两种类型的嵌入所习得的语言特征是不同的。在几乎所有探测任务(除了坐标反转)上，平均基嵌入量都超过编码器嵌入量。这种差异在单词内容任务上尤其明显，在该任务中，编码器嵌入的结果仅略高于11.0，这表明恢复特定单词的能力对于我们的四个语义任务来说并不是一个有用的功能。

与表面和句法任务的低信号相比，编码器表示在语义探测任务上的性能更强。唯一的例外是句子的长度，这表明这一语言方面是自然编码的。NER和EMD编码器的性能通常在相同的范围内，支持这两个任务在本质上相似的事实。最后，我们观察到编码器表征的最高分数总是来自共指编码器，这表明认知无线电是最高级别的任务，认知无线电模块需要丰富多样的表征才能做出决定。

Multi-task learning accelerating training

了解多任务学习框架对模型训练时间的影响也是很有趣的。在下一节中，我们将多任务框架中每个任务的参数更新次数(参数更新等于反向传播传递)的训练速度与单任务框架进行比较。训练速度被定义为基于验证度量达到收敛所需的更新次数。最佳执行多任务模型(A-GM)的结果如表7所示。在大多数情况下，除RE任务外，多任务框架需要较少的更新即可达到可比(或更高)的F1分数。这支持这样一种直觉，即从一个任务收集的知识对我们模型的分层体系结构中的其他任务是有益的。
在这里插入图片描述

Conclusion

针对一组语义任务，提出了一种分层监督的多任务学习模型。该模型在命名实体识别、实体提及检测和关系提取等任务上取得了最先进的结果，在共指消解上取得了竞争性的结果，同时使用了比以往工作更简单的训练和正则化过程。这些任务共享公共的嵌入和编码器，从而允许从体系结构的最低层到顶层的简单信息流。我们分析了该模型学习到的表征的几个方面，以及每个任务对模型整体性能的影响。