CVPR 2020 Character Matters: Video Story Understanding with Character-Aware Relations

smile909

于 2021-05-10 23:10:20 发布

阅读量345

点赞数

分类专栏： CVPR 2020

本文链接：https://blog.csdn.net/smile909/article/details/116614774

版权

本文介绍了一种视频故事理解框架，通过角色感知推理网络（CA-RN）深入理解视频中的角色和关系。作者提出了一种多任务框架，结合角色命名和多模态推理，提升了视频问答任务的性能。在TVQA数据集上的实验表明，该方法在理解复杂场景和角色关系方面优于现有方法。

摘要由CSDN通过智能技术生成

动机

在这里插入图片描述

与短视频和GIF不同，视频故事包含清晰的情节和主要人物列表。如果没有识别出人物和角色名字之间的联系，一个模型就无法获得对情节的真正理解。
视频故事问答(VSQA)提供了一种有效的评估模型更高层次理解能力的方法。
然而，目前的VSQA方法只是从场景中提取一般的视觉特征。通过这种方法，它们仍然倾向于只学习表面上的相关性。
视频问答的任务在最近的许多研究中得到了探索。然而，这些方法仅仅是利用预训练好的CNN从视频帧或视频帧的一部分中提取视觉特征，而忽略了视频场景内部的角色特征，使得其模型缺乏对场景的深度理解能力。
角色名称，视觉目标，以及它们之间的关系都是回答问题的必要因素（如图1）。作者需要一个更好的框架，能够挖掘关于角色身份及其关系的详细视觉线索。
作者感兴趣的是如何利用关系不仅用于图像，而且还用于基于角色的关系表示的视频理解，就作者所知，这方面还没有得到充分的探索。
角色命名的目标是自动识别电视节目或电影中的角色。以往的方法倾向于基于提取的人脸轨迹来训练人脸分配模型。在本工作中，作者在一个多任务的方案中训练角色命名和问题处理模块。作者的方法不需要对人脸进行任何显式标注。作者只依靠含有说话人姓名的字幕的弱监督，利用字幕中出现的人脸和姓名之间的共现分布。

方法

简介

针对上述问题，为了真正理解谁对谁做了什么，作者构建了一个以角色为中心的VSQA框架，并将这些特征与推理能力结合起来，构建了一个角色感知推理网络（CA-RN）。作者的框架由两个主要部分组成。第一部分旨在建立一个场景表示来理解角色和目标之间的关系，从而推断出正在发生的事情。通过视觉关系，作者捕捉到视觉语义的两个层次：实体级和关系级。在实体层次上，作者通过预训练好的目标检测器和基于多实例共现匹配的角色识别来检测角色、目标及其对应关系。在关系层，在每一帧内重新认识实体之间的关系，其中用预测的角色名替换指代人类的词。第二部分，将多模态信息（包括两级场景表示和字幕）注入到基于Transformer的CA-RN网络中，作为推理模块。

作者在一个大型视频故事数据集TVQA中的六个不同的电视节目上训练和测试了作者的模型。该数据集是VSQA迄今为止最大的，也是唯一公开可用的数据集。在每个视频片段中，都有相应的字幕和几道选择题。作者框架的目标是正确预测这些问题的正确答案。

框架

在这里插入图片描述
CA-RN：对于视频中的每一帧，首先检测角色、目标和视觉关系。然后用预测的角色名替换视觉关系中的指代人类的词。普通单词和角色名采用两种不同的嵌入方式。最后，将问题、答案选项、字幕和视频语义输入到基于Transformer的多模态推理结构中进行答案预测。

模型

CA-RN的目标是利用视频中的人脸和字幕中的人名的共现，不断地精炼角色感知关系的检测，并将后者用于改进视频故事理解。如图2所示，作者的视频故事理解框架可以以端到端的方式进行训练，由两个主要模块组成，其中一个模块预测检测到的人脸边界框，并通过匹配边界框的位置来将角色名称纳入检测到的关系中。结果，从每一帧中提取出多种形式的视觉语义，并将其组合在一起，作为对角色所处场景的理解。另一个模块是一个基于Transformer的推理流水线，它接收输入的问题、回答操作和不同的模态，并输出具有最高softmax分数的预测答案。

具体包括：

角色感知帧理解。

1）人脸检测与特征提取。作者利用最先进的人脸检测器在每个帧中定位人脸，并使用LightCNN提取其256维视觉特

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2020 Character Matters: Video Story Understanding with Character-Aware Relations

动机与短视频和GIF不同，视频故事包含清晰的情节和主要人物列表。如果没有识别出人物和角色名字之间的联系，一个模型就无法获得对情节的真正理解。视频故事问答(VSQA)提供了一种有效的评估模型更高层次理解能力的方法。然而，目前的VSQA方法只是从场景中提取一般的视觉特征。通过这种方法，它们仍然倾向于只学习表面上的相关性。视频问答的任务在最近的许多研究中得到了探索。然而，这些方法仅仅是利用预训练好的CNN从视频帧或视频帧的一部分中提取视觉特征，而忽略了视频场景内部的角色特征，使得其模型缺乏对场景的深度
复制链接

扫一扫