情绪原因对提取的端对端网络(2021)
摘要
情绪原因对提取(ECPE)的 任务旨在提取文档中所有潜在的情绪子句对及其对应的原因。 与更深入研究的情绪原因提取(ECE)任务不同,ECPE不要求提供情绪子句作为注释。
以前关于ECPE的工作要么遵循多阶段方法,其中情感提取、原因提取和配对是独立完成的,要么使用复杂的架构来解决其局限性。
在本文中,我们提出了一个ECPE任务的端到端模型。由于英语ECPE语料库不可用,我们采用了NTCIR-13 ECE语料库,并在此数据集上建立了ECPE任务的基线。在这个数据集上,提出的方法产生了显著的性能改进(∼ F1分数提高6.5%),并达到与最先进方法相当的性能。
研究内容
在过去的十年里,人们对情绪原因提取问题进行了广泛的研究,即找出导致文本中表达的情感的潜在原因。在Lee等人(2010)中,ECE最初是作为一个词级序列检测问题提出的。在解决这项任务时,重点关注经典机器学习技术(Ghazi等人,2015)或基于规则的方法(Neviearuskaya和Aono,2013;Gao等人,2015)。
随后,该问题被重新定义为子句级分类问题,任务是检测包含原因的子句,给定包含情感的子句(Chen等人,2010),Gui等人(2016)引入的中文数据集已成为ECE的基准数据集,该任务一直是一个活跃的研究领域(Xia等人,2019;Gui等人,2017;Yu等人,2019;Li等人,2018,2019;Fan等人,2019)。
然而,ECE的主要局限性是即使在测试期间也需要情感注释,这严重限制了ECE模型的适用性。
为了解决这个问题,夏和丁(2019)引入了一个新任务,称为情感-原因对提取(ECPE),该任务提取情感及其原因,而不需要情感注释。他们在基准汉语ECE语料库上展示了其两阶段架构的结果(Gui等人,2016)。夏和丁(2019)使用两阶段架构来提取潜在的情绪原因子句。在第一阶段,该模型从文档中提取一组情感子句和一组原因子句(不相互排斥)。在第二阶段,它执行情绪-原因配对和过滤,即消除模型预测为无效情绪-原因配对的配对。
然而,两阶段并不能完全捕捉情感和原因子句之间的相互依赖性,因为子句提取是在配对步骤之外进行的。因此,模型从未以总体任务为目标进行优化。此外,如果没有相应的原因子句作为该情绪的上下文,则可能无法检测到某些情绪子句。
最近的方法,如丁等人(2020a)和丁等人(2020b),使用复杂的编码器和分类器架构来解决多阶段方法的这些局限性。
子句1:经过一整天的工作,阿黛尔下午很晚才到达她的公寓。 |
子句2:她仍然对丈夫不记得40岁生日感到愤怒。 |
子句3:她一打开门,就惊讶地喘着粗气; |
子句4:迈克和哈丽特为她组织了一个盛大的聚会。 |
Figure 1: 示例文档。上面的例子包含两个情绪原因对。第2条是情感子句(愤怒),也是相应的原因子句(不记得她的40岁生日)。第3条是情感子句(惊喜),第4条是相应的原因子句(为她组织了一个盛大的聚会)。
在本文中,我们提出了一个端到端模型,以明确证明联合训练对ECPE任务的有效性。该模型试图考虑情感和原因子句之间的相互依存关系。基于NTCIR-13研讨会ECE任务中使用的基准英语语料库(Gao等人,2017),我们在将该数据集用于ECPE任务后,对我们的方法进行了评估。
我们证明了所提出的方法明显优于多阶段方法,并实现了与最先进方法相当的性能。我们还表明,当通过提供地面真实情感注释用于ECE任务时,我们的模型在引入的语料库上优于ECE模型的最先进性能。
为了进一步探索语料库并鼓励更广泛社区的未来工作,我们使用了英语ECE语料库。(见第5节)。
提出的方法&模型架构
数据集
我们采用现有的情绪原因提取(ECE)(Fan等2019)语料库来评估我们提出的模型(以及之前工作中提出的架构)。
语料库是在NTCIR-13研讨会(Gao等人,2017年)上为欧洲经委会挑战赛引入的。语料库由2843篇取自几部英语小说的文献组成。每个文档都带有以下信息:
- 文档中存在的情感-原因对,即情感子句集及其对应的原因子句;
- 各子句的情感类别;
- 子句中表示标记情感的关键字。
在ECE或ECPE任务的训练期间,我们不使用情绪类别或关键词,只使用情绪-原因对。在测试时,没有任何注释用于ECPE任务。对于ECE任务,在测试时提供情感注释,模型预测相应的原因子句。
80%-10%-10%的分割用于训练、验证和测试。10个此类随机生成的分割用于获得具有统计意义的结果,并报告平均结果。