陌上pamper-CSDN博客

原创《Generating Question Relevant Captions to Aid Visual Question Answering》（生成问题相关标题，以帮助视觉回答问题）论文解读

下面是我对最近阅读的论文《Generating Question Relevant Captions to Aid Visual Question Answering》的一些简要理解一、摘要

2020-05-09 16:38:03 372

原创《Self-Critical Reasoning for Robust Visual Question Answering》鲁棒视觉问题解答的自我批判推理论文解读

下面是我对最近阅读的论文《Self-Critical Reasoning for Robust Visual Question Answering》的一些简要理解一、摘要由于语言的先验性强，视觉问答（VQA）深度学习系统倾向于捕捉训练数据中的表面统计相关性，而不能推广到具有显著不同的问题回答(QA)分布的测试数据，为了解决这个问题，我们引入了一个自我批判的训练目标，确保正确答案的视觉解释匹配最...

2020-04-22 13:38:08 795

原创《Question-Guided Hybrid Convolution for Visual Question Answering》（用于视觉问题回答的问题引导混合卷积）论文理解

下面是我对最近阅读的论文：Question-Guided Hybrid Convolution for Visual Question Answering的一些简要理解。一、摘要在本文中，我们提出了一种新颖的问题指导混合卷积（QGHC）网络，用于视觉问题解答（VQA）。大多数最先进的VQA方法融合了神经网络的高级文本和视觉功能，并在学习多模式特征时放弃了视觉空间信息。为了解决这些问题，从输入...

2020-04-07 15:58:23 926

原创《Multimodal Relational Reasoning for Visual Question Answering》（视觉问题回答的多峰关系推理）论文理解

下面是我对最近阅读的文章Multimodal Relational Reasoning for Visual Question Answering的一些简要理解一、摘要多模式注意力网络是当前涉及真实图像的视觉问题解答（VQA）任务的最新模型。尽管注意力可以集中在与问题相关的视觉内容上，但是可以说这种简单的机制不足以对VQA或其他高级任务所需的复杂推理功能进行建模。在本文中，我们提出了MURE...

2020-04-02 23:22:27 784

原创《iVQA: Inverse Visual Question Answering》逆向视觉问答论文理解

下面是我对最近看的逆向视觉问答文章的理解一、文章摘要我们提出了视觉问题回答(iVQA)的反问题,并探讨了其是否适合作为视觉语言理解的基准.iVQA任务是生成一个与给定图像和答案对对应的问题。由于答案的信息量低于问题，而且问题具有较少的可学习偏差，因此iVQA模型需要比VQA模型更好地理解图像才能成功。我们将问题生成作为一种多模式动态推理过程，并提出一个 iVQA 模型，该模型可以逐渐调整其关...

2020-01-20 10:15:31 596

原创《Image-Question-Answer Synergistic Network for Visual Dialog》视觉对话的图像问题-答案协同网络论文理解

最近读了一篇文章《Image-Question-Answer Synergistic Network for Visual Dialog》，下面是我看完文章对文章的一点理解一、文章摘要图像，问题（与取消引用的历史记录相结合）以及相应的答案是视觉对话的三个重要组成部分。经典的可视对话系统集成了图像，问题和历史记录，以搜索或生成最佳匹配的答案，因此，这种方法极大地忽略了答案的作用。在本文中，作者设...

2020-01-19 21:45:26 881

原创《Deep Attention Neural Tensor Network for Visual Question Answering》视觉问答的深度注意神经张量网络论文理解

一、介绍在本文中，我们提出了一种新颖的深度关注神经张量网络（DA-NTN）用于视觉问题回答，它可以发现基于张量表示的图像，问题和答案之间的联合相关性。首先，我们通过双线性特征对成对交互（例如，图像和问题）中的一个建模，进一步用三维（例如，答案）将其编码为双线性张量积的三元组。其次，我们通过不同的答案和问题类型分解不同的三元组的相关性，并进一步在张量上提出一个切片式注意模块，以选择最具判别力的...

2019-12-09 18:23:36 593

原创《Visual Question Answering as Reading Comprehension》论文理解

一、介绍视觉问答当前的方法是将视觉信息和文本特征共同嵌入同一空间，但是，如何对两个不同模态之间的复杂交互进行建模并不是一件容易的事，与挣扎于多峰特征融合的努力相反，本文提出用自然语言统一所有输入信息，从而将VQA转换为机器阅读理解问题，提出了两种类型的VQA模型分别解决开放式VQA和多项选择VQA。图1：VQA和TQA之间的比较，问题1是基于观察的，可以从图像本身进行推断，问题2是基于知识的...

2019-11-25 18:10:27 467

pamper_xu的博客