MovieQA: Understanding Stories in Movies through Question-Answering心得体会

最新推荐文章于 2024-11-28 17:35:36 发布

untitled713

最新推荐文章于 2024-11-28 17:35:36 发布

阅读量1k

点赞数

文章标签： vqa

本文链接：https://blog.csdn.net/untitled_/article/details/103802769

版权

本文介绍了MovieQA数据集，一个用于评估机器理解和解释复杂视频能力的大型问答库，涉及多种信息源如视频片段、字幕、脚本等。数据集包含了丰富的多选问题，旨在推动对电影的语义理解。通过分析数据，作者展示了如何使用不同的智能基准和神经网络模型来解决电影中的复杂问答任务，评估模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在之前研读了《Progressive Attention Memory Network for Movie Story Question Answering》这篇关于电影问答的论文后，想要对文中所涉及的数据集有更深一步的了解，所以找到了这篇《MovieQA: Understanding Stories in Movies through Question-Answering》，发表于CVPR2016,主要介绍了MovieQA这一数据集，提供了一些智能基准，并扩展了现有的质量检查技术，以分析任务的难度。
文章链接：MovieQA: Understanding Stories in Movies through Question-Answering
一、文章引入
深度学习的快速发展以及大量可用的标记数据已大大推动了许多视觉任务的性能，例如图像标记，对象检测和分割，动作识别以及图像/视频字幕。我们离诸如视觉障碍者的辅助解决方案或认知机器人之类的应用程序更近了，这些应用程序需要通过在一个通用框架中推理所有这些任务来全面了解视觉世界。但是，理想情况下，真正智能的机器还可以推断出人类行为（例如动机，意图和情感）背后的高级语义，以便做出适当的反应并可能进行交流。
电影为我们提供了人们生活中的快照，并将它们链接到故事中，使经验丰富的观众可以对角色，角色及其背后的动机有一个高层次的了解。我们的目标是创建一个问答数据库，以评估机器对复杂视频（例如电影）及其随附文本的理解。我们认为，这些数据将有助于将自动语义理解推向更高水平，这是真正理解这种复杂性故事所必需的。本文介绍了MovieQA，这是一个关于电影的大规模问答集。包含来自408个具有高度语义多样性的电影的14,944个多项选择题，包括五个欺骗选项，其中只有一个是正确的。在其中的140部电影中，我们使用时间戳标明了问题和答案在视频中的位置。问题的范围从仅凭视觉即可解决的简单的“谁”对”谁“做了“什么”到只能通过利用可视信息和对话框来解决的关于“为什么”和“如何”发生的问题。
MovieQA数据集包含多种信息源：视频片段，字幕，脚本，情节和DVS，如图1所示。通过各种统计数据和智能基准来分析数据，这些数据可以模拟“学生”的差异。”进行测验。
在这里插入图片描述
图一：显示来自The Matrix的示例QA，并在时间轴中将其本地化。
二、MovieQA数据集介绍
本文的目标是创建一个具有挑战性的基准，以评估对较长时间数据的语义理解。我们收集的数据集具有非常丰富的信息资源，可以在这一充满挑战的领域中加以利用。我们的数据包括自动系统必须回答的有关电影的测验。对于每部电影，测验由一组问题组成，每个问题有5个选择题答案，其中只有一个是正确的。该系统可以访问各种文本和视觉信息源，收集了408副字幕电影，并从Wikipedia中以情节摘要的形式获得了其扩展的摘要。检索了imsdb的脚本，这些脚本可用于49％（199）的电影。一部分电影（60）带有提供的DVS转录。
Plot synopses是影迷们在看完电影后写的电影摘要。内容提要的细节差异很大，范围从1到20个段落，但重点在于描述与故事直接相关的内容。它们很少包含详细的视觉信息（例如角色外观），而更着重于描述电影事件和角色互动。我们利用情节来收集测验。
Videos and subtitles平均一部电影长约2小时，有超过198K帧和近2000张照片。视频仅包含有关“谁”对“谁”做了“做什么”的信息，但可能缺少解释发生原因的信息。对话起着重要作用，只有这两种方式共同使我们能够充分理解故事。请注意，字幕不包含演讲者信息。在MovieQA数据集中所提供的为视频剪辑而不是完整的电影。
DVS是一项服务，通过在对话框之间插入相关描述来向视障人士讲述电影场景。这些描述包含有关场景的足够“视觉”信息，它们使视障者可以观看电影。因此，DVS可以充当完美视觉系统的代理，并且是答案的另一个来源。
Scripts收集的脚本由编剧编写，并作为电影制作的准则。它们通常包含场景的详细描述，并且与字幕不同，包含对话框和演讲者信息。因此，剧本与DVS +字幕相比，即使内容不丰富，也很相似。但是由于导演可能渴望艺术自由，剧本并不总是完全忠实于电影。
2.1 QA收集方法
由于视频很难提供给注释者，而且价格昂贵，因此使用情节概要作为电影的代替。在创建测验时，注释者仅引用故事情节，因此被自动强制为询问类似故事的问题。我们将注释工作分为两个主要部分，以确保所收集数据的高质量。
Q and correct A
首先要求注释者从大列表中选择一部电影，并向其一次显示一段情节摘要。对于每个段落，注释者可以自由地形成任意数量和类型的问题。要求每个注释者提供正确的答案，并且还要在情节提要段落中标记最少的句子集，这些句子可用于框架和回答问题。这被视为在情节中定位QA的真实依据。
文中要求注释者为每个问题提

最低0.47元/天解锁文章