untitled713-CSDN博客

原创 Counterfactual Samples Synthesizing for Robust Visual Question Answering阅读笔记

当今的VQA模型倾向于捕获训练集中的表层语言相关性，而不能推广到具有不同QA分布的测试集中。为了减少语言偏见，最近的一些工作引入了一个辅助的仅问题模型，以规范化目标VQA模型的训练，并在VQA-CP上实现主导性能。但是，由于设计的复杂性，当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征：1）视觉可解释性：模型在做出决策时应依赖正确的视觉区域。2）问题敏感性：该模型应对所讨论的语言变化敏感。为此，本文提出了一种与模型无关的反事实样本合成（CSS）训练方案。文章链接:CSS一、文章引

2020-09-14 11:45:43 856 1

原创 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs阅读笔记

人们可以根据自己的意愿使用粗糙到精细的细节来描述图像内容。然而，大多数图像字幕模型是与意图无关的，不能主动根据不同的用户意图生成各种描述。本文提出了抽象场景图（ASG）结构来细粒度地表示用户意图，并控制生成的描述的内容和详细程度。ASG是一个有向图，由基于图像的三种类型的抽象节点（对象，属性，关系）组成，没有任何具体的语义标签。因此，很容易手动或自动获得。文章链接：Say As Y ou Wish: Fine-grained Control of Image Caption Generation with

2020-09-01 00:41:44 655

原创 Normalized and Geometry-Aware Self-Attention Network for Image Captioning阅读笔记

本文从两个方面对自注意（Self-attention）进行了改进，以提高图像字幕的性能。首先，提出了规范化自注意（NSA），它是SA的重新参数化，它带来了SA内部规范化的好处。其次，为了弥补Transformer无法对输入对象的几何结构进行建模的主要局限性，本文提出了一类几何感知自我注意（GSA），它扩展了SA，使之能够明确有效地考虑图像中对象之间的相对几何关系。一、文章引入自动生成图像字幕，即图像字幕，已成为计算机视觉（CV）与自然语言处理（NLP）交叉点上的一个突出研究课题。这项任务具有挑战性，因为

2020-08-04 00:52:26 1466

原创 Women also Snowboard: Overcoming Bias in Captioning Models阅读笔记

众所周知，大多数机器学习方法都能捕捉和利用训练数据的偏差。有些偏见对学习有益，有些则有害。具体地说，图像字幕模型倾向于夸大训练数据中存在的偏差（例如，如果一个单词出现在60%的训练句子中，那么在测试时可能在70%的句子中预测到）。本文根据人物的外貌或图片背景来研究生成性别特定的字幕字词（例如男人，女人）。我们引入了一种新的均衡器模型，当性别证据被遮挡在场景中时，该模型鼓励性别概率相等，而在存在性别证据时，则鼓励进行自信的预测。由此产生的模型被迫观察人物，而不是使用上下文线索来做出特定的性别预测。构成本文模型

2020-07-27 00:03:03 410

原创 Overcoming Language Priors in VQA via Decomposed Linguistic Representations阅读笔记

大多数现有的可视问答（VQA）模型过分依赖于问答之间的语言优先级。本文提出了一种基于语言注意力的VQA方法，该方法可以灵活地学习和利用问题中各种信息（问题类型，指代对象和期望概念）的分解表示，来最大程度地减少语言先验的影响，并实现透明的回答过程。一、文章引入近期研究表明，大多数现有的视觉问答（VQA）模型过度依赖问题和答案之间的表面关联，即语言优先，而忽略图像信息。这些模型之所以容易受到语言先验的影响，主要是因为在答案推理过程中，各种各样的问题信息被纠缠在一起。大多数VQA模型（包括三个部分：提取图像和

2020-07-19 18:29:38 435

原创 Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记

现代视觉问答（VQA）模型已被证明严重依赖于训练期间所学的问答词之间的表面关联性，而与图像无关。本文提出了一个新的规则化方案，以减少这种影响。引入了一个纯问题模型，它将来自VQA模型的问题编码作为输入，并且必须利用语言偏差来获得成功。然后，我们将培训视为VQA模型和这个只问问题的对手之间的一场对抗性游戏，阻止VQA模型在其问题编码中捕捉语言偏差。此外，在考虑图像后，利用此仅问题模型来估计模型置信度的增加，以鼓励视觉背景。一、文章引入回答有关视觉内容的问题的任务称为视觉问答（VQA），提出了一系列丰富的人

2020-07-14 00:21:46 686

原创 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记

自上而下的视觉注意机制被广泛应用于图像字幕和视觉问答（VQA）中，通过精细的分析甚至多个步骤的推理来实现更深入的图像理解。本文提出了一个自下而上和自上而下的注意机制，使注意力能够在物体和其他显著图像区域的水平上计算。自底向上机制（基于更快的R-CNN）提出图像区域，每个区域都有一个相关的特征向量，而自顶向下机制确定特征权重。一、文章引入在人类视觉系统中，注意力可以通过当前任务确定的自上而下的信号（例如，寻找某物）自发地集中，并通过与意外的、新颖的或显著的刺激相关的自下而上的信号自动聚焦。本文采用相似的术

2020-07-13 15:45:43 506

原创 Learning Visual Reasoning Without Strong Priors阅读笔记

这篇文章是基于前一篇端对端网络进行的改进工作，本文证明了一个通用的模型可以从语言中实现强大的视觉推理。使用条件批处理规范化和一个递归神经网络（RNN）和卷积神经网络（CNN）来说明没有强大先验知识的深度学习架构可以直接从语言和图像中学习视觉推理背后的基本结构。文章链接：Learning Visual Reasoning Without Strong Priors一、文章引入实现人工视觉推理（即回答需要多步骤、高水平处理的图像相关问题的能力）是迈向人工通用智能的重要一步。这个多模态任务需要学习一个依赖于

2020-07-07 01:09:14 342

原创 Learning to Reason: End-to-End Module Networks for Visual Question Answering阅读笔记

本文提出了端到端模块网络（N2NMNs），它通过直接预测特定于实例的网络布局来学习推理，而无需借助解析器。N2NMNs模型学习生成网络结构，同时学习网络参数（使用下游任务损失）。一、文章引入视觉问答（VQA）需要图像和文本的共同理解。这种理解通常依赖于合成推理，例如在场景中定位多个对象并检查它们的属性或将它们相互比较（图1）。图1：对于每个实例，本文的模型预测一个计算表达式和一系列关注的模块参数化。它利用这些构造出一个具体的网络结构，然后执行组装后的神经模块网络输出一个答案，用于可视化问答。本文提

2020-07-05 23:27:43 783

原创 Stacked Attention Networks for Image Question Answering阅读笔记

本文提出了一种学习从图像中回答自然语言问题的叠层注意力网络（SANs）。SANs使用问题的语义表示作为查询来搜索图像中与答案相关的区域。文章链接：Stacked Attention Networks for Image Question Answering一、模型SAN由三个主要部分组成：（1）图像模型，使用CNN提取高级图像表示；（2）问题模型，使用CNN或LSTM提取问题的语义向量；（3）堆叠的注意模型，通过多步推理，定位出与问题相关的图像区域，进行答案预测。二、模型精读2.1 Ima

2020-07-02 21:12:17 622

原创 Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering心得体会

最近两周研读了一篇文章，题目是《Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering》，文章链接如下：Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Quest...

2020-07-02 00:23:08 576 1

原创 Attention Is All You Need阅读笔记

本文提出了一种新的简单的网络结构——Transformer，它完全基于注意机制，而不需要递归（RNN）和卷积（CNN）。文章链接：Attention Is All You Need代码链接：Transformer一、文章引入主流的Seq-Seq的模型通常采用RNN或者是CNN，一般在网络结构中都会用到encoder和decoder, 效果比较好的模型会通过attention(注意力机制)连接encoder和decoder。但是这种网络结构也存在一些问题：递归模型通常沿输入和输出序列的符号位置进行因

2020-06-26 16:01:12 447

原创 SnowNLP安装

最近在完成大数据作业，对数据进行情感分析时用到了SnowNLP这个第三方的库，可是在安装过程中遇到了一些小问题，下面是安装过程以及错误解决方法：这里如果直接在命令行里输入pip install snownlp，会遇到time out的报错，因为访问国外网站时会出现网速不达标的问题，导致最后的下载失败。我们可以先去官网下载它的安装包SnowNLP官网首先，将压缩包解压到文件夹；然后打开命令行（这里我所用的python是在anaconda环境下，所以打开Anaconda Prompt），输入

2020-06-17 17:15:05 10282 6

原创 pyecharts安装

这两天在做大数据作业，对数据进行可视化分析时用到了pyecharts这个包，以下是安装语句以及过程中遇到的问题：我首先尝试了一个清华镜像-ihttps://pypi.tuna.tsinghua.edu.cn/simple/也就是在命令行里输入pip install -ihttps://pypi.tuna.tsinghua.edu.cn/simple/pyecharts，这种方法加载速度比较快，但是这种方法安装成功后当我调用这个包时出现了报错：“cannot import name 'Lin...

2020-06-17 16:48:33 564

原创 Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention阅读笔记

本文提出了一个简单的架构，在视觉和语言表示之间完全对称，其中每个问题词关注图像区域，而每个图像区域关注问题词。它可以被堆叠成一个层次结构，用于在一对图像-问题之间进行多步骤交互。...

2020-06-12 18:12:13 489 1

原创 Don’t Just Assume； Look and Answer：Overcoming Priors for Visual Question Answering阅读笔记

许多研究发现，目前的视觉问题回答(VQA)模型在很大程度上是由训练数据的表面相关性驱动的，缺乏足够的图像基础。我们提出了一种新的VQA设置，即针对每种题型，训练和测试集都有不同的答案先验分布。提出了VQA v1和VQA v2数据集的新分割，称之为改变先验下的可视化问题回答(VQA-CP v1和VQA-CP v2)。1、文章引入先前的工作所研究的模型当面对一个困难的学习问题时，通常诉诸于锁定训练数据中的语言先验，以至于忽略图像。（比如问题为“……是什么颜色”时回答“白色”，问题为“是……吗?”时回答“是的

2020-06-08 23:52:28 492

原创 Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge阅读笔记

本文提出了一种基于深度神经网络的VQA模型，并报告了一套广泛的实验来确定每个设计选择的贡献和替代设计的性能。它提供了关于VQA模型各个组件重要性的指示器，一、Summary of findings1.使用一个sigmoid输出，允许每个问题的多个正确答案，而不是一个常见的单标签softmax。2.使用软分数作为ground truth目标，将任务作为候选答案分数的回归，而不是传统的分类问题。3.在所有非线性层中使用门控tanh激活。4.使用自下而上注意的图像特征来提供特定区域的特征，而不是使用CN

2020-06-06 00:15:36 562

原创 Visual Question Answering with Memory-Augmented Networks阅读心得

本文中利用记忆增强神经网络来预测视觉问题的准确答案，即使这些答案很少出现在训练集中。记忆网络结合了内部和外部记忆块，并有选择地关注每个训练范例。证明了在答案重尾分布的VQA环境中，记忆增强神经网络能够保持对稀缺训练样本的相对长期记忆。一、文章引入现有的VQA系统训练深度神经网络存在的两个问题：1）首先，使用基于梯度的方法训练的深度模型学会响应大多数训练数据，而不是特定的稀缺样本。然而，在自然语言中，问答对往往是重尾分布的。现有的方法将问题中的稀有词标记为无意义的未知标记(例如，unk)，并简单地将稀有

2020-06-03 18:35:18 388

原创 Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介

本篇文章介绍的VQAv2是人工标注的开放式问答数据集，通过收集互补的图像来平衡目前的VQA数据集，针对视觉问题回答(VQA)任务的语言偏见，使视觉(VQA中的V)变得重要，相较于VQAv1尽量减少了语言偏见（为每个问题补充了图片）。同时，本文提出一个新的用于识别互补图像的数据收集模型，该模型除了为给定的(图像、问题)对提供答案外，还提供基于反例的解释。具体来说，它识别出与原始图像相似的图像，但它认为对同一个问题有不同的答案。这有助于在用户之间建立对机器的信任。一、文章引入先前的相关文章中提出，在VQA

2020-05-28 15:29:34 1376

原创 MovieQA相关文章及代码链接

下面这些是我近半年来在arXiv上找的关于MovieQA的论文以及相关代码，如果有其他有关这方面的文章欢迎大家补充~1、MovieQA: Understanding Stories in Movies through Question-Answering CVPR2016Abstract：We introduce the MovieQA dataset which aims to evaluate automatic story comprehension from both video and te

2020-05-11 02:08:23 786

untitled_的博客

原创 Counterfactual Samples Synthesizing for Robust Visual Question Answering阅读笔记

原创 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs阅读笔记

原创 Normalized and Geometry-Aware Self-Attention Network for Image Captioning阅读笔记

原创 Women also Snowboard: Overcoming Bias in Captioning Models阅读笔记

原创 Overcoming Language Priors in VQA via Decomposed Linguistic Representations阅读笔记

原创 Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记

原创 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记

原创 Learning Visual Reasoning Without Strong Priors阅读笔记

原创 Learning to Reason: End-to-End Module Networks for Visual Question Answering阅读笔记

原创 Stacked Attention Networks for Image Question Answering阅读笔记

原创 Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering心得体会

原创 Attention Is All You Need阅读笔记

原创 SnowNLP安装

原创 pyecharts安装

原创 Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention阅读笔记

原创 Don’t Just Assume； Look and Answer：Overcoming Priors for Visual Question Answering阅读笔记

原创 Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge阅读笔记

原创 Visual Question Answering with Memory-Augmented Networks阅读心得

原创 Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介

原创 MovieQA相关文章及代码链接

原创 Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记

原创 Adversarial Multimodal Network for Movie Question Answering心得体会

原创 Holistic Multi-modal Memory Network for Movie Question Answering心得体会

原创 Movie Question Answering: Remembering the Textual Cues for Layered Visual Contents心得体会

原创 A Read-Write Memory Network for Movie Story Understanding心得体会

原创 Are we asking the right questions in MovieQA?心得体会

原创 KnowIT VQA:Answering Knowledge-Based Questions about Videos心得体会

原创 MovieQA: Understanding Stories in Movies through Question-Answering心得体会

原创 Hierarchical Co-Attention for Visual Question Answering心得体会

原创 Progressive Attention Memory Network for Movie Story Question Answering心得体会

原创在anaconda中安装pytorch 过程中遇到的问题

空空如也

空空如也