自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读

对于大多数的VQA来说,可以直接从图像内容获取到问题的答案无须推理过程,使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究,最近引入了一种新的“基于事实的”视觉问题回答(FVQA)任务,以及一个附带的数据集,其中包含图像,带有相应答案的问题以及从三个不同来源提取的事实的知识库(KB):WebChild ,DBPedia 和ConceptNet 。与经典的VQA数据集不同,FVQA数据集中的问题是通过对图像中的信息和知识库中的事实的集体分析来回答的。每个问题都映射到一个包含问题答案的支持事实。因此,回答

2020-02-23 16:39:19 980 1

原创 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

视觉 - 语言推理需要对视觉概念、语言语义有一定的理解,尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系,它含有三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。为了让模型具备联系视觉和语言语义的能力,使用了 5 个不同的有代表性的预训练任务:(1)掩码交叉模态语言建模;(2)通过ROI特征回归进行掩码目标预测;(3)通过检测到的标签分类进行掩蔽目标预测;(4)交叉模态匹配;(5)图像问题解答。这些多模态预训练既可以帮助学习同一个

2020-02-16 16:32:29 3177 1

原创 Learning Visual Knowledge Memory Networks for Visual Question Answering论文解读

该论文提出了视觉知识记忆网络(VKMN)来将结构化知识与视觉特征融合进端对端的学习框架。 本文的主要贡献是: (1)我们提出了VKMN,一个简单而有效的端到端可训练框架,它继承了基于注意力的方法和基于联合嵌入的方法的优点,同时避免了当前基于知识的解决方案的知识的不准确限制。 (2)我们建立了一个视觉问题特定的知识库,它不包含像Freebase这样的通用知识库的无关知识条目 (3)我们对VQA v1进行了大量的实验.0和v2.0基准数据集,并表明所提出的方法可以达到竞争准确性,同时在知识推理相关问题上

2020-02-09 15:58:24 371

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除