动机
-
视觉问答(VQA)的重要性。
自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标,视觉问答(VQA)旨在通过提取语言内容(即问题)和视觉内容(即图像)中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入,将它们的视觉和语言特征编码为高维向量,并使用attention机制对它们进行处理以预测正确答案。
-
目前VQA框架的局限性。
近几年来,VQA引起了人们的广泛关注,并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而,目前的框架仍然存在一些局限性。例如,VQA主要关注于静态图像相关问题的建模,但对问题的回答关注较少关于视频。基于视频的问答与基于图像的VQA不同,基于视频的问答需要对问题和候选答案、视频帧的时间序列以及相关联的字幕进行联合理解。此外,VQA系统的大部分工作主要集中在从图像中提取更好的视觉表征,而语义语言的建模则留给了标准的递归神经网络(RNN)。
-
视频问答(video-QA)的研究意义和挑战。
为了解决时间序列中的VQA问题,视频问答(video-QA)近年来也就如何正确回答关于视频剪切片段的问题进行了研究。由于视频的时间特性,video-QA相对于标准VQA提出了一些独特的挑战:1)它要求理解一组帧中的时间一致性,需要建模一系列随时间变化的视觉特征,2)它经常需要基于相关字幕推理与情节相关的问题。这意味着视频质量保证模型需要处理比标准VQA系统更多的输入数据,因此它们需要特定的方法来提取和表示如此数量的视觉和语言内容。
-
之前方法出现的问题。
目前介绍的大多数视频问答模型使用RNNs,特别是长短时记忆(LSTM)网络对问题和字幕中的语言信息进行编码。然而,LSTM表示在捕获长文本序列中的语义关系方面可能是失败的,例如出现在长视频剪切片段(例如大约30秒)的字幕中的那些。与以往的研究不同的是,本论文在工作中使用BERT对视频片段中捕获的信息进行建模。
方法
简介
在这一工作中,本论文提出通过使用BERT表示从视频剪切片段中封顶视觉和语言语义信息来改进视频问答。BERT是一个强大的基于语言transformers的双向网络,它在几个自然语言处理任务中的表现已经证明优于LSTMs。然而,BERT在计算机视觉应用中几乎没有被研究过。对于视频问答,Lei等人。提议使用