【论文阅读笔记】【关系提取】An Improved Neural Baseline for Temporal Relation Extraction

An Improved Neural Baseline for Temporal Relation Extraction

一种改进的时间关系提取的神经基线

此论文为关系提取领域,以下的阅读笔记为作者的文献翻译及本人的理解,如有错误请提出来。

摘要
确定事件之间的时间关系(例如之前或之后)已经成为具有挑战性的自然语言理解任务,部分原因是由于难以生成大量高质量的训练数据。因此,神经方法尚未被广泛使用,或仅显示出中等程度的改进。本文提出了一种新的神经系统,在两个基准数据集上,该系统的准确度绝对比以前的最佳系统提高了10%(错误减少了25%)。所提出的系统在最新的MATRES数据集上进行了训练,并应用了上下文化词嵌入,时间常识知识库的连体编码器以及通过整数线性规划(ILP)进行的全局推理。我们建议新方法可以作为该领域未来研究的坚实基础。
关键技术:时间关系提取,处理事件位置,常识编码器(CSE)

1.背景与简介
确定事件之间的时间关系(例如,before或after)一直是一项具有挑战性的自然语言理解任务,部分原因是难以生成大量高质量的训练数据。因此,神经方法没有被广泛应用于此,或仅显示出适度的改善。本文提出了一种新的神经系统,在两个基准数据集上,该系统的精度比以前的最佳系统提高了约10%(误差降低了25%)。所提出的系统是在最先进的MATRES数据集上训练的,并应用了上下文化的单词嵌入、时态常识知识库的常识编码器和通过整数线性规划的全局推理。我们认为,新的方法可以作为这一领域未来研究的坚实基础。
时间关系(TempRel)提取已被认为是自然语言中理解时间的主要组成部分。但是,众所周知,时间关系的注释过程既耗时又困难,甚至对于人类来说也是如此,现有的数据集通常很小而且注释者间协议(IAA)较低;尽管如今深度学习取得了重大进展,但神经方法尚未广泛用于此任务,或仅显示了适度的改进。我们认为重要的是要理解:是因为我们错过了“神奇的”神经体系结构,还是因为训练数据集很小,还是因为应该提高数据集的质量?
最近,作者引入了一个新的数据集,称为起点的多轴时间关系(MATRES)。MATRES的大小仍然相对较小(15K TempRels),但是由于其改进的任务定义和注释准则,其注释质量更高。本文使用MATRES数据集证明了长短期记忆(LSTM)系统可以轻易地胜过之前的最新系统CogCompTime,大幅度地提高准确度。标准LSTM系统相对于基于MATRES的基于特征的系统可以显着改善的事实表明,神经方法相形见绌主要由于注释的质量,而不是特定的神经体系结构或数据量小。
为了更好地理解标准LSTM方法,我们广泛比较了各种词嵌入技术的使用年龄,包括word2vec,GloVe,FastText,ELMo和BERT,并展示了它们对时间关系提取的影响。此外,我们通过从TEMPROB的更新版本中注入知识边缘来进一步改善LSTM系统,TEMPROB是一种自动诱导的时间常识知识库,可在事件之间提供典型的时间关系。总之,这些组件的F1指标和准确性比CogCompTime提高了约10%。 提议的系统是公开的,可以作为将来研究的强大基准。
2.相关工作(这个部分是我根据本文用到的模型补充的,便于理解)
本节介绍与本文相关的一些技术概要,包括CogCompTime,TEMPROB(时间常识知识库),孪生神经网络。
2.1CogCompTime
CogCompTime是该领域目前最先进的系统,CogCompTime系统如图2.1,共有6个组件,分别是原始文本组件,过程组件,时间组件,事件提取组件,时间关系组件和可视化组件。
https://zhuanlan.zhihu.com/p/112188984

图2.1  CogCompTime系统
(相关内容见https://zhuanlan.zhihu.com/p/112188984)

如图中的例子,CogCompTime是把文本中的时间和事件关系提取出来,然后可视化给用户。如图2.1中的例子,原始文本是I worked out after finishing my homework yesterday.这句话经过过程组件进行Lemma,POS,SRL处理,继续在时间组件中将文本中的时间提取出来,并将时间进行标准化。这句话中将时间yesterday提取出来并标准化为2018-05-31,接着用事件提取组件将文本中的事件提取出来,在例句中事件有两个E1:worked,E2:finishing。再用时间关系组件识别出两个事件之间的时间关系,在该例句中两事件之间的时间关系为after,则E1 is after E2,E1&E2 both on T1。最后通过可视化组件把时间和事件之间的时间关系可视化给用户。
2.2TEMPROB(时间关系概率知识库)
时间关系概率知识库TEMPROB的全程为Temproal relation PRObabilistic knowledge Base。TEMPROB可以简单的理解为计数模型,TEMPROB就是通过把纽约时报近20年(1987—2007)的文章中的事件之间的时间关系提取出来,开发了这样一个在新闻领域的概率知识库。TEMPROB如图2.2所示。
在这里插入图片描述

图2.2 TEMPROB时间关系概率知识库(相关内容见https://blog.csdn.net/qq_25408127/article/details/105902479?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160094648319724836719928%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160094648319724836719928&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-105902479.first_rank_ecpm_v3_pc_rank_v2&utm_term=Improving+temporal+relation+ex&spm=1018.2118.3001.4187)

可以从图2.2中看出来,TEMPROB就是简单的计数模型。如事件对(ask,help)在统计中有86%是before,有9%是after,则可以近似的认为事件对(ask,help)之间的时间关系是before;事件对(attend,schedule)在统计中有1%是before,有82%是after,则可以近似的认为事件对(attend,schedule)之间的时间关系是after;事件对(accept,propose)在统计中有10%是before,有77%是after,则可以近似的认为事件对(accept,propose)之间的时间关系是after;事件对(die,explode)在统计中有14%是before,有83%是after,则可以近似的认为事件对(die,explode)之间的时间关系是after。可以看出该知识库有个缺陷,TEMPROB就是简单的计数模型,对于一些罕见的事件对之间的时间关系并不可靠,作者根据这个缺陷提出了文本中的常识编码器(CSE),详见3.2。
2.3孪生神经网络
孪生神经网络是很经典的判别模型,最开始提出孪生神经网路是为了判断两个签名字迹是不是由同一个人签的。孪生神经网络的输入端是两个签名字迹,输出端输出的是两个签名之间的相似度距离衡量,两个签名经过的过程以及神经网络是相同的,这也是孪生神经网络为什么称为孪生神将网络的原因之一。孪生神经网络如图2.3所示。
在这里插入图片描述

图2.3 孪生神经网络(相关内容见https://blog.csdn.net/fnoi2014xtx/article/details/106888205?biz_id=102&utm_term=Signature%20ver-%20ification%20using&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-106888205&spm=1018.2118.3001.4187)

3.时间关系提取
这一节介绍本篇论文所介绍的模型及技术,包括处理事件位置和常识编码器(CSE)。
3.1处理事件位置
文本每个时间关系都与两个事件相关联,对于同一文本,不同的事件对具有不同的关系,因此在我们为该任务训练LSTM时,指出这些事件的位置至关重要。处理事件位置有以下两种方法,方法介绍如下:
1.最直接的方法是将两个时间步骤(周期)中与这些事件的位置相对应的隐藏状态串联起来(图3.1a)。
在这里插入图片描述
图3.1a

2.通过在每个事件之前和之后立即添加XML标签来处理此问题(图3.1b)。 例如,在句子After eating dinner, he slept comfortably.两个事件(eating ,slept )用黑体显示,它们会将序列转换为After eating dinner, he slept comfortably.XML标记最初是在用于关系提取的位置指示器的名称下提出的,可唯一地将事件位置划分为LSTM,这样LSTM的最终输出可以用作这些事件及其上下文的表示。
在这里插入图片描述

图3.1b

我们将在本文中比较这两种方法,并且我们稍后在3.3中所要展示的,直接连接方法已经和XML标记法一样好。
3.2常识编码器(CSE)
在表达时间关系的自然出现的文本中包含since,when或until通常是不明确的;但是,对于事件,人类仍然可以使用常识来推断时间关系。例如,即使没有上下文,我们也知道死亡通常发生在爆炸之后,而调度通常在参加之前等。TEMPROB是通过汇总自动从大型语料库中提取的时间关系来获取此类知识的最初尝试。所得的知识库TEMPROB包含观察到的元组(v1,v2,r)的频率,这些频率表示动词1和动词2具有关系r的概率,并且显示出用于时间关系提取的有用资源。详见2.2。
但是,TEMPROB是一个简单的计数模型,对于看不见(或罕见)的元组,它会失败(或不可靠)。例如,我们在语料库中看到(ambush,die)的频率要比(attack,die)少,因此观察到的(ambush,die)的频率在可靠性之前或之后都不那么可靠。 但是,由于“ ambush”在语义上与“ attack”相似,因此(attack,die)的统计信息实际上可以用作(ambush,die)的辅助信号。受此想法的启发,我们引入了常识编码器(CSE):我们通过孪生神经网络拟合了TEMPROB的更新版本,该模型通过每个动词的嵌入结果推广到看不见的元组。在开始时,我们尝试直接使用输出(即标量),而对性能的影响可以忽略不计。 因此,这里我们将CSE输出离散化,将其更改为分类嵌入,将其与LSTM输出连接,然后生成置信度得分。
在这里插入图片描述

 图3.2 作者提出的模型

可以用这个例子来理解作者提出的模型,比如说LSTM两个时间步的输入分别是:I ambush in somewhere.和Someone is died.这两句文本中隐藏状态就是(ambush,died),由于这个事件对(ambush,died)的时间关系比较罕见,所以作者用图3.2中的常识编码器©,在知识库里找到和(ambush,died)语义相近的(attack,died),输出ambush和attack的相似程度,做辅助信号。然后辅助信号和(ambush,died)一起到图3.2(d),可以根据(attack,died)的时间关系输出(ambush,died)的时间关系。

4.实验
本章节讨论了数据集的构建,讨论不同模型以及不同词嵌入对结果的影响。
4.1数据
MATRES数据集包含来自TempEval研讨会的275篇新闻文章,其中包含新注释的事件和时间关系。它包含3个部分:TimeBank(TB),AQUAINT(AQ)和Platinum(PT)。 我们遵循官方划分(即用于培训的TB + AQ和用于测试的PT),并且随着开发的发展调整学习率和时代,进一步预留了20%的培训数据。我们还将在另一个数据集TCR上展示我们的效果,其中包含时间和因果关系,我们只需要时间部分。两个数据集的标签集在before,after,equal和vague。具体数据情况如表4.1所示。
在这里插入图片描述

表4.1 数据情况

4.2结果和结论
我们将MATRES的最新技术与最新版本的CogCompTime进行比较。此外我们除了使用F1指标还使用了另外两个指标进行更彻底的比较:分类准确度(acc。)和时间感知Faware,其中时间感知分数是专门用于衡量时间关系识别模型的指标。 我们还在实验中报告了这三个指标的平均值。
在这里插入图片描述

表4.2 在MATRES数据集上实验结果

表4.2比较了处理事件位置中讨论的两种不同方式。位置指示器(P.I.)和简单串联(Con cat)。 我们广泛研究了各种预训练的单词嵌入的用法,包括常规嵌入和上下文嵌入的嵌入; 除了输入嵌入,我们将所有其他参数保持不变。 我们在PyTorch中使用了交叉熵损失和StepLR优化器,将学习率降低了0.5个10个周期(对它不敏感的性能)。与之前使用的P.I. 我们发现只有两个例外(表4.2中有下划线),Concat系统在各种嵌入下都获得了一致的收益和指标。 此外,尽管在使用ELMo或BERT之间未观察到统计学意义,但上下文化嵌入(ELMo和BERT)有望比传统嵌入显着改善。
鉴于以上观察,我们在表4.2中进一步将常识编码器(CSE)与ELMo和BERT合并到“ Concat”中。
我们首先看到,在所有指标下,对于ELMo和BERT来说,CSE在Concat之上都得到了改善,这证实了TEMPROB的优势; 其次,与CogCompTime相比,建议的Con cat + CSE在准确性和F1方面获得了约10%的绝对增益,在Faware方面的意识得分为5%,在三项平均指标中达到了8%。 粗略地说,LSTM贡献2%,上下文嵌入4%,CSE贡献2%,这是8%的收益。 同样,在使用ELMo和BERT之间没有观察到统计学意义。
在这里插入图片描述

表4.3 在TCR数据集上的实验结果

表4.3进一步将CogCompTime和建议的Concat + CSE系统应用于称为TCR的不同测试集。两种系统均取得了较好的成绩(建议TCR比MATRES容易),而建议的系统在三指标平均指标下,它仍然比CogCompTime快大约8%,这与我们对MATRES的改进保持一致。
我们可以得出如下结论:在自然语言处理(NLP)中,时间关系提取一直是重要但具有挑战性的任务。缺乏高质量的数据和以前的注释方案定义的学习问题的困难抑制了基于神经的方法的性能。LSTM可以在很大程度上改善MATRES和TCR数据集上基于特征的最新CogCompTime的发现,这不仅为社区提供了强大的基线,而且表明MATRES可能更好地定义了学习问题 和TCR。因此,我们应该沿着这个方向前进,以收集更多高质量的数据,这可以在将来促进更高级的学习算法。

  • 15
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值