下面是我对最近阅读的论文《Generating Question Relevant Captions to Aid Visual Question Answering》的一些简要理解
一、摘要
视觉问答和图像字幕需要一个共同的知识体连接语言和视觉。我们提出了一种新的方法来提高VQA性能,通过联合生成标题来利用这种连接, 这些标题旨在帮助回答特定的视觉问题。该模型使用现有的标题数据集进行训练,方法是使用基于在线梯度的方法自动确定与问题相关的标题。关于VQA V2挑战的实验结果表明,我们的方法获得了最先进的VQA性能同时生成与问题相关的标题。
二、介绍
我们探索了一种新的方法,生成与问题相关的图像描述,其中包含与特定的VQA问题直接相关的信息。图一给出了不同的问题我们生成的标题的示例。

图一: 我们生成的问题相关标题的示例。 在训练阶段,我们的模型为每个问题选择最相关的人类标题(用相同的颜色标记)。
为了鼓励生成相关标题,我们提供了一种新的贪婪算法,其目的是仅对最相关和最有用的黄金标准标题最小化交叉熵损失函数。具体来说,使用标题生成损失和VQA答案预测损失的梯度的内积来测量帮助性。正内积意味着两个目标函数在优化过程中共享一些下降方向,因此表明相应的标题有助于VQA训练过程。
为了结合标题信息,我们提出了一种新的标题嵌入模块,该模块考虑到视觉问题的问题和图像特征,识别标题中的重要单词,并生成适合于答案预测的标题嵌入。此外,标题嵌入也被用来调整每个对象的视觉自下而上的注意权重。
此外,生成与问题相关的标题确保图像和问题信息都被编码在它们的联合表示中,这降低了从问题偏见中学习的风险,并且在单独从问题中获得高精度时忽略了图像内容。
三、方法
联合模型的总体结构

图二:我们的模型的总体结构,生成与问题相关的标题来帮助VQA。我们的模型首先被训练来生成与问题相关的标题,这是在第一阶段以在线方式确定的。然后,用第一阶段生成的标题 对VQA模型进行微调,以预测答案。蓝色箭头表示完全连接的层(fc),黄色箭头表示注意嵌入。
3.1Overview
如图所示,该模型首先利用自上而下的注意和问题特征q提取图像特征
V = {v1, v2, …, vK},生成它们的联合表示,然后生成与问题相关的标题。接下来,我们的标题嵌入模块将生成的标题编码为标题特性c, 在此之后,两个问题特征q和标题特征c被用来生成视觉注意力

本文解读了《Generating Question Relevant Captions to Aid Visual Question Answering》论文,介绍了一种新方法,通过生成与问题相关的图像标题来增强VQA性能。模型在VQA V2挑战上表现优越,同时生成的标题能帮助回答特定问题。实验结果显示,这种方法能有效整合图像和问题信息,降低从问题中获取高精度时忽视图像内容的风险。
最低0.47元/天 解锁文章
966

被折叠的 条评论
为什么被折叠?



