关系分类论文解读笔记-1

AAAI-2021 NLP关系分类论文:Progressive Multitask Learning with Controlled Information Flow for Joint Entity and Relation Extraction

1.Introduction

之前的MTL模型仅利用共享表示(the shared representation)所捕获的隐式交互。我们对任务的理解是,一些相关任务的输出之间确实存在相关性,例如实体识别和关系分类任务。我们的贡献可总结如下:

  • 我们提出了一个渐进的多任务学习模型(PEMI ),它利用早期预测的交互来改进特定于任务的表示;
  • 我们的模型使用随机映射来编码人物之间的共享表示和来自任务的早期预测(early prediction);
  • 以联合实体识别与关系提取为具体实例,将所提出的方法应用于该联合方法。在多个基准数据集上的大量实验表明了该方法的有效性。

2.Related Work

Multitask Learning

(简介ML):目前提出的多任务学习体系结构可以按照拓扑结构(topologocal structure)进行分类:平面结构(flat structure),图结构(graph structure),层次结构(hierarchical sttucture)

Joint Enity and Relation Extraction

传统的实体和关系提取任务的解决方法是基于两步流水线(two-step pipeline-based)的方法。然而,这些方法面临着从实体识别任务到关系分类任务的错误传播,不能充分利用两个任务之间的交互作用。而多任务学习思想善于发现相关任务间的内在联系。

3.Method

Progressive Classification on Single Task Learning

在这里插入图片描述

  1. Figure 1(A):X表示输入随机变量(如句子),Y表示输出随机变量(如类别标签)。我们采用BiLSTM从X中提取上下文表示H,分类模型定义为从H到p(Y)的映射:C : H—>p(Y)。
  2. Figure 1(B):改进H的表示。使用一个分类器C’,它以H为输入,产生早期预测(early prediction)Y’,就相当于输出值Y的近似值。因此,Y’可以提供一些关于Y的信息,这些信息可作为H的附加信息去提取更具表现力的表示T。在这个模型架构中,我们在H和Y’中都应用的多层感知器(MLP)来学习T的表示。
  3. Figure 1©:实验表明Y’确实能提高H的表示能力,但是不是所有Y’包含的信息对于模型表现都是有利的。因此有必要控制Y’的信息流。具体来说,我们构造了一个随机映射(stochastic map,SM)来建模以Y’为条件的H和T之间的互信息,记为I(H;T|Y’)。这样,我们就可以通过控制I(H;T|Y’)的优化来控制Y’的信息流。I(H;T|Y’)值很小就意味着T很大程度上由Y’决定,值很大就意味着T很大程度上由H决定。
Progressive Classification on Multitask Learning

在这里插入图片描述
Figure 2(A) 没有显式的建模交互,只利用了H中的隐式交互,如此,多任务学习模型不能正确地区分单个任务之间的相关特征。为了解决这个问题,我们观察到几个任务的输出间存在相关性。假设我们有多个任务的早期预测。我们可以利用这些交互来改进特定任务的表示。因此,一个自然的想法是有条件的MI项应该在YA’和YB’条件下,如(H;TA|YA’;YB’)和I(H;TB|YA’;YB’)。

Our Model for the Joint ER and RC Tasks

在这里插入图片描述

  1. Learning a shared representation:首先将单词序列s映射到向量集合x={x1,x2,…,xn},xi是R维的词向量。X是表示句子s初始向量对应的随机变量X。利用BiLSTM为ER何RC任务构造一个共享表示H。
  2. Learning task-specific representations:利用ER与RC任务输出间的相关性构造互信息I(H; Te|Ye’; Yr’) 和
    I(H; Tr|Ye’; Yr’),其中Te,Tr相当于上图的TA,TB,其他以此类推,我们通过最小化互信息来控制到Te和Tr的信息流。
  3. Task-specific classification:(公式太多了,不想看了)。。。

4.Experiment

Datasets:

在这里插入图片描述

Evaluation Protocols

the Precision, Recall and micro-F1 performance of our models on the datasets

Implementation Details

使用Glove或者BERT初始化词向量。基于BERT的模型直接使用BERT嵌入作为H。Glove模型的batch size设置为50,BERT模型min-batch设置为6…

Performance Comparison

将我们的模型与seq2seq模型如OneDecoder,MultiDecoder,OrderRL,序列标注模型如NovelTagging,ReHession,PA-LSTM-CRF,HRL,CASREL,还有多任务学习模型如SPTree,GraphRel,CopyMTL进行比较。我们将一个基本的MTL模型作为基线,MTL直接将H传递给分类器Ce和Cr的分类。
PS:MTL, PMEI是以Glove标注的模型,有BERT下标是以BERT标注的模型。
在这里插入图片描述
在这里插入图片描述

5.Conclusion

我们模型的核心是我们学习数据分类表示的方式,这通常是每个监督学习框架的核心任务。在本文中,我们承认相关任务的输出之间存在相关性,并通过个体任务早期预测的相互作用来利用这些相关性。以前的研究已经考虑了这种方法来改善表示法学习,但是他们通过通过这些早期的预测,以及通过确定性映射的输入表示法来做到这一点。在我们的方法中,**我们将随机映射作为一种方式去捕捉特定任务的表示。同时,我们控制了早期预测的信息流,以确保能够提取出良好的任务特定表示进行监督。**通过这种方式,我们逐步对单个任务做出预测。在多个基准数据集上的大量实验表明了该方法的有效性。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值