3D Question Answering 3D问答
本课题隶属于视频问答,即根据视频内容自动回答自然语言问题。它促进了在线教育、情景分析、视频内容检索等方面的发展。VideoQA是一项具有挑战性的任务,因为它需要一个模型来理解视频的语义信息和生成答案的问题。首先,我们提出了一个视频特征提取模块、文本特征提取模块、集成模块和答案生成模块组成的视频质量保证系统的总体框架。集成模块是核心模块,包括核心处理模型、递归神经网络(RNNs)编码器和特征融合。这三个子模块协作生成上下文表示,答案生成模块在此基础上生成答案。 然后,总结了核心处理模型的方法,并详细介绍了编码器解码器、注意模型、记忆网络等方法的思想和应用。此外,我们还介绍了广泛使用的数据集和评价标准,以及在基准数据集上的实验结果分析。最后,我们讨论了视频qa领域所面临的挑战,并为未来的工作提供了一些可能的方向。
(1)VideoQA处理具有丰富外观和运动信息的长序列图像,而不是单一的静态图像。
(2)由于视频中存在大量的时间线索,VideoQA需要更多的时间推理来回答问题,如动作过渡和计数。
在VideoQA框架中,
(1)视频特征提取模块分别使用Faster-RCNN[7]提取区域级特征,使用CNN[8-10]提取帧级特征,使用C3D[11]提取图像级别特征。
(2)文本特征提取模块分别使用预先训练的词嵌入模型[12,13]和句子嵌入模型[14-16]提取词级特征。
(3)集成模块以视觉