WACV 2020 BERT Representations for Video Question Answering

动机
  1. 视觉问答(VQA)的重要性。

    自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标,视觉问答(VQA)旨在通过提取语言内容(即问题)和视觉内容(即图像)中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入,将它们的视觉和语言特征编码为高维向量,并使用attention机制对它们进行处理以预测正确答案。

  2. 目前VQA框架的局限性。

    近几年来,VQA引起了人们的广泛关注,并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而,目前的框架仍然存在一些局限性。例如,VQA主要关注于静态图像相关问题的建模,但对问题的回答关注较少关于视频。基于视频的问答与基于图像的VQA不同,基于视频的问答需要对问题和候选答案、视频帧的时间序列以及相关联的字幕进行联合理解。此外,VQA系统的大部分工作主要集中在从图像中提取更好的视觉表征,而语义语言的建模则留给了标准的递归神经网络(RNN)。

  3. 视频问答(video-QA)的研究意义和挑战。

    为了解决时间序列中的VQA问题,视频问答(video-QA)近年来也就如何正确回答关于视频剪切片段的问题进行了研究。由于视频的时间特性,video-QA相对于标准VQA提出了一些独特的挑战:1)它要求理解一组帧中的时间一致性,需要建模一系列随时间变化的视觉特征,2)它经常需要基于相关字幕推理与情节相关的问题。这意味着视频质量保证模型需要处理比标准VQA系统更多的输入数据,因此它们需要特定的方法来提取和表示如此数量的视觉和语言内容。

  4. 之前方法出现的问题。

    目前介绍的大多数视频问答模型使用RNNs,特别是长短时记忆(LSTM)网络对问题和字幕中的语言信息进行编码。然而,LSTM表示在捕获长文本序列中的语义关系方面可能是失败的,例如出现在长视频剪切片段(例如大约30秒)的字幕中的那些。与以往的研究不同的是,本论文在工作中使用BERT对视频片段中捕获的信息进行建模。

方法
简介

在这一工作中,本论文提出通过使用BERT表示从视频剪切片段中封顶视觉和语言语义信息来改进视频问答。BERT是一个强大的基于语言transformers的双向网络,它在几个自然语言处理任务中的表现已经证明优于LSTMs。然而,BERT在计算机视觉应用中几乎没有被研究过。对于视频问答,Lei等人。提议使用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值