【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间

本文链接：https://blog.csdn.net/qq_45041871/article/details/129558366

【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间

【论文原文】：Cross-media Structured Common Space for Multimedia Event

【作者信息】：Manling Li and Alireza Zareian and Qi Zeng and Spencer Whitehead and Di Lu and Heng Ji and Shih-Fu Chang

论文：https://blender.cs.illinois.edu/paper/multimediaspace2020.pdf
代码：https://github.com/limanling/m2e2

博主关键词：多媒体事件抽取、文本视觉特征融合、对比学习

推荐论文：无

摘要

我们介绍了一个新的任务，多媒体事件抽取(M2E2)，旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试，并收集了245篇多媒体新闻文章的数据集，其中包含大量标注的事件和论点。我们提出了一种新的方法，弱对齐结构化嵌入(Weakly Aligned Structured Embedding, WASE)，它将语义信息的结构化表示从文本和视觉数据编码到一个公共的嵌入空间。通过采用弱监督训练策略，使结构在不同模式之间保持一致，从而可以在没有显式跨媒体标注的情况下利用可用资源。与最先进的单模态方法相比，我们的方法在文本事件论元角色标记和视觉事件抽取方面获得了4.0%和9.8%的绝对F-score增益。与最先进的多媒体非结构化表示相比，我们在多媒体事件抽取和论元角色标记方面分别获得了8.3%和5.0%的绝对F-score增益。通过使用图像，我们比传统的纯文本方法多抽取21.4%的事件提及。

1、简介

传统的事件抽取方法针对单一的模态，如文本(Wadden et al, 2019)、图像(Yatskar et al, 2016)或视频(Ye et al, 2015;Caba Heilbron et al, 2015;Soomro等人，2012)。然而，当代新闻的实践(Stephens, 1998)通过多媒体传播新闻。通过从美国之音(VOA)中随机抽取100篇多媒体新闻文章，我们发现文章中33%的图像包含作为事件论元的视觉对象，而文本中没有提及。以图1为例，我们可以从文本中抽取Movement.Transport事件的Agent和Person论元，但只能从图像中抽取Vehicle论元。然而，事件抽取在计算机视觉(CV)和自然语言处理(NLP)中是独立研究的，在任务定义、数据领域、方法和术语方面存在重大差异。基于多媒体数据的互补性和整体性，我们提出了多媒体事件抽取(M2E2)，这是一项旨在从多种模式中联合抽取事件论元的新任务。我们为此任务构建了第一个基准测试和评估数据集，其中包括245篇完全标注的新闻文章。

我们提出了第一种方法，弱对齐结构化嵌入(WASE)，用于从多种模式中抽取事件和论元。现有的多媒体表示方法还没有涵盖复杂的事件结构(Wu等人，2019b;法格里等人，2018;Karpathy and Fei-Fei, 2015)，因此我们提出学习一个结构化的多媒体嵌入空间。更具体地说，给定一个多媒体文档，我们将每个图像或句子表示为一个图，其中每个节点表示一个事件或实体，每条边表示一个论元角色。节点和边缘嵌入在多媒体公共语义空间中表示，因为它们被训练来解决跨模式的事件共同引用，并将图像与相关句子匹配。这使我们能够联合分类来自两种模式的事件和论元角色。一个主要的挑战是缺乏多媒体事件参数标注，由于标注的复杂性，获取这些标注的成本很高。因此，我们提出了一个弱监督框架，该框架利用带标注的单模态语料库分别学习视觉和文本事件抽取，并使用图像字幕数据集来对齐模式。

我们对M2E2新任务的WASE进行了评估。与最先进的单模态方法和多媒体平面表示相比，我们的方法在所有设置下都显著优于事件抽取和论元角色标记任务。此外，它抽取的事件提及量比纯文本基线多21.4%。训练和评估是在来自多个来源、领域和数据模式的异构数据集上完成的，展示了所提出模型的可伸缩性和可移植性。综上所述，本文做出了以下贡献: