论文笔记 EMNLP 2021|Joint Multimedia Event Extraction from Video and Article

hlee-top

已于 2022-03-30 23:41:21 修改

阅读量4.1k

点赞数 1

分类专栏： NLP 论文文章标签：多模态事件抽取多模态事件共指消解自然语言处理

于 2022-03-06 20:52:51 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/123300703

版权

NLP 同时被 2 个专栏收录

125 篇文章 14 订阅

订阅专栏

论文

125 篇文章 12 订阅

订阅专栏

文章目录

1 简介

论文题目：Joint Multimedia Event Extraction from Video and Article
论文来源：EMNLP 2021
论文链接：https://arxiv.org/abs/2109.12776

1.1 动机

以前的一些方法试图从图像中转移视觉知识以改进纯文本事件提取，或者从文本和图像中联合抽取多模态事件，图像包含事件的快照，但可能无法在单个快照中捕获事件的所有论元或参与者。

1.2 创新

提出了一个新的问题：视频多模体事件抽取，同时构造了一个新的数据集(包含事件类型、事件论元和角色、论元边界、文本和视频中事件的跨模态共指解析)
提出了一个自监督的训练策略，发现共指的句子和视频段。
提出了一个多模体transformer结构，利用特定的解码器进行联合文本和视频事件以及论元提取。在事件共指消解、事件抽取和论元角色标注任务中超过单模态和多模态baseline。

2 背景知识

视觉的事件抽取在CV领域被称为situation recognition，目标是检测图像中发生的事件、所涉及的对象，并识别它们的角色。

3 方法

3.1 构造数据集

共选择16种事件类型，在Youtube上选择视频和其下的文章，然后人工标注，数据统计如下图：
在这里插入图片描述

3.2 方法

3.2.1 任务定义

多模态事件共指消解：给定M个句子和N个视频片段，预测共指 $c_{ij}\in\{0,1\}$ 。
多模态事件抽取和论元角色标注：给定句子 $x_i$ 和视频片段 $y_j$ ，需要预测多模态事件类型e，文本提及 $t_e$ ,每个论元角色 $a_k$ 对应的文本提及 $t_{a_k}$ 、边界框 $bbox_{ak}$ 。

3.2.2 多模态事件共指消解

使用ASR transcripts(自动语音识别)，从未标注视频片段，学习两个模态的公共空间，Loss为noise contrastive loss (NCE)，公式如下：
在这里插入图片描述
同时区域信息对发现视频和文本种的共指事件也是关键的，为了学习文本和对象区域之间的这种对应关系，使用多实例学习，Loss公式如下：

总的loss为：

3.2.3 多模态事件抽取和论元角色标注

在这里插入图片描述
模型的整体框架如上图，为一个encoder-decoder结构，编码器抽取和融合两个模态的信息，解码器包括两个head，一个是从文本中检测触发词、事件类型和论元。另一个是分类视频事件类型和预测视频论元的边界框(为了专注于联合多模态事件提取，对所有共指视频段-句子对进行采样以进行训练和评估)。
对于视觉token，使用下面4种特征进行编码(采样t个帧，采样t个置信分数最高的对象)：

视频级别特征。
通过对象检测器得到的帧级别的对象标签。
通过对象检测器得到的帧级别的边界框区域特征。
对象检测器提供的帧级别的对象坐标。
对于视频的解码，获得的目标序列是 ${e,a_1,bbox,a_2,bbox,...,a_n,bbox\}$ ,开始为事件类型，然后是论元类型 $a_i$ 和边界框bbox，使用teacher-forcing策略训练。
总的Loss公式如下：

4 实验

实验结果如下图：
在这里插入图片描述

定性分析：

hlee-top

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
3
评论
论文笔记 EMNLP 2021|Joint Multimedia Event Extraction from Video and Article

文章目录1 简介1.1 动机1.2 创新2 背景知识3 方法4 实验5 总结1 简介论文题目：Joint Multimedia Event Extraction from Video and Article论文来源：EMNLP 2021论文链接：https://arxiv.org/abs/2109.127761.1 动机1.2 创新2 背景知识3 方法4 实验5 总结...
复制链接

扫一扫