笔记整理 | 王琰,东南大学
来源:ACL 2020
链接:https://arxiv.org/pdf/2005.02472.pdf
概述
本论文引入一项新任务:多媒体事件提取(M²E²),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外,构造了第一个带注释的新闻数据集作为基准,以支持对跨媒体事件的深入分析。并且提出了一种新方法:弱对齐结构嵌入(WASE),该方法将语义信息的结构化表示形式从文本和视觉数据编码为共同的嵌入空间,通过采用弱监督的训练策略进行跨模态结构对齐,从而能够在无需显式跨媒体注释的情况下利用可用资源。
背景及动机
传统事件提取方法的目标是单一形式,例如文本、图像或视频。但是,当代新闻业是通过多媒体信息来传播新闻。从美国之音(VOA)中随机抽取的多媒体新闻文章进行分析,我们可以发现报道中33%的图像包含用作事件自变量的可视对象,但新闻文章中未提及它们。这说明了多媒体数据之间存在着的互补性和整体性的影响,因此作者提出了多媒体事件提取(M²E²),这是一项旨在从多种模式中联合提取事件和论点的新任务。
数据集
通过映射新闻领域(ACE2)的NLP社区中的事件本体和通用领域(imSitu)的CV社区中的事件本体,来定义具有多媒体新闻价值的事件类型。M²E²中的事件类型和论点角色统计结果如下表,其中包含8种ACE类型,映射到98种imSitu类型,通过添加来自imSitu的视觉论点来扩展ACE事件角色集。粗体显示扩展的事件类型和论点角色,括号中的数字表示文本和视觉事件/自变量的计数。
作者从美国之音(VOA)网站上收集了108,693篇多媒体新闻文章,内容涉及军事,经济和健康等一系列具有新闻价值的主题,并且基于信息性、多样性、具有较多插图等标准选择