笔记整理:康婧淇,东南大学硕士,研究方向为多模态事件抽取、自然语言处理。
动机
视觉语言预训练模型通过理解图像和文本之间的排列组合,在支持多媒体应用方面取得了巨大成功。虽然现有的视觉语言预训练模型主要侧重于理解图像中的物体或文本中的实体,但它们往往忽略了事件及其论元结构层面上的对齐。
现实世界的多媒体应用不仅需要了解实体知识(即对象和对象类型),还需要了解事件知识(即事件类型)与事件论元结构(即涉及的实体及其关系)。例如,如今的多媒体新闻数据中的89%的图像包含了事件。此外,识别论元(参与者)对新闻的理解至关重要,因为如果论元扮演不同的角色,事件可能是相互矛盾的。
然而,现有的视觉语言预训练模型侧重于对图像或实体的理解,忽略了事件语义和结构。因此,这些模型在需要理解动词的情况下明显失败。因此,文章专注于将事件结构知识融入视觉语言预训练。
关于从新闻图像中提取事件结构的研究很少,对下游应用中需要的事件知识获取的支持有限。因此,文章建议利用在自然语言处理中得到充分研究的文本信息提取技术,从标题中自动提取事件结构。在新闻数据中,标题基本上指的是与图片相同的事件。因此,文章设计了一个自我监督的对比学习框架,CLIP-Event,利用标题中丰富的事件知识作为远距离监督来解释相关图像中的事件,以有效地跨模式转移事件知识。
贡献
文章的贡献有:
1.本文第一次提出在视觉-语言预训练中利用视觉事件和论元结构信息;2.本文提出一个由多种提示函数生成负面事件描述,以硬性负面事件和论元为条件的对比学习框架;3.本文提出了基于最优传输的事件图对齐方法,将以前的图像或物体对齐扩展到事件结构层面的对齐。4.本文公开了一个事件丰富的图像字幕数据集:VOANews,包括106,875张图像。
方法
对于文本模态,利用标题中的事件结构知识来对比关于事件类型和论元角色的硬性负样本(蓝色),具体做法是,首先从文本中抽取事件类型和论元,得到正样本,然后利用提示函数生成负样本。对于图像模态,首先将图像输入目标检测模型,然后经过V