WACV 2020 BERT Representations for Video Question Answering

最新推荐文章于 2024-01-25 09:47:12 发布

smile909

最新推荐文章于 2024-01-25 09:47:12 发布

阅读量1w

点赞数

分类专栏： WACV 2020

本文链接：https://blog.csdn.net/smile909/article/details/115742418

版权

动机

视觉问答(VQA)的重要性。

自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标，视觉问答(VQA)旨在通过提取语言内容（即问题）和视觉内容（即图像）中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入，将它们的视觉和语言特征编码为高维向量，并使用attention机制对它们进行处理以预测正确答案。
目前VQA框架的局限性。

近几年来，VQA引起了人们的广泛关注，并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而，目前的框架仍然存在一些局限性。例如，VQA主要关注于静态图像相关问题的建模，但对问题的回答关注较少关于视频。基于视频的问答与基于图像的VQA不同，基于视频的问答需要对问题和候选答案、视频帧的时间序列以及相关联的字幕进行联合理解。此外，VQA系统的大部分工作主要集中在从图像中提取更好的视觉表征，而语义语言的建模则留给了标准的递归神经网络(RNN)。
视频问答（video-QA）的研究意义和挑战。

为了解决时间序列中的VQA问题，视频问答（video-QA）近年来也就如何正确回答关于视频剪切片段的问题进行了研究。由于视频的时间特性，video-QA相对于标准VQA提出了一些独特的挑战：1）它要求理解一组帧中的时间一致性，需要建模一系列随时间变化的视觉特征，2)它经常需要基于相关字幕推理与情节相关的问题。这意味着视频质量保证模型需要处理比标准VQA系统更多的输入数据，因此它们需要特定的方法来提取和表示如此数量的视觉和语言内容。
之前方法出现的问题。

目前介绍的大多数视频问答模型使用RNNs，特别是长短时记忆(LSTM)网络对问题和字幕中的语言信息进行编码。然而，LSTM表示在捕获长文本序列中的语义关系方面可能是失败的，例如出现在长视频剪切片段（例如大约30秒）的字幕中的那些。与以往的研究不同的是，本论文在工作中使用BERT对视频片段中捕获的信息进行建模。

方法

简介

在这一工作中，本论文提出通过使用BERT表示从视频剪切片段中封顶视觉和语言语义信息来改进视频问答。BERT是一个强大的基于语言transformers的双向网络，它在几个自然语言处理任务中的表现已经证明优于LSTMs。然而，BERT在计算机视觉应用中几乎没有被研究过。对于视频问答，Lei等人。提议使用

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
WACV 2020 BERT Representations for Video Question Answering

动机视觉问答(VQA)的重要性。自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标，视觉问答(VQA)旨在通过提取语言内容（即问题）和视觉内容（即图像）中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入，将它们的视觉和语言特征编码为高维向量，并使用attention机制对它们进行处理以预测正确答案。目前VQA框架的局限性。近几年来，VQA引起了人们的广泛关注，并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而，目前的框架
复制链接

扫一扫