这篇博客这样写-CSDN博客

原创 Overcoming Language Priors in VQA相关文章总结

VQA中克服语言优先相关文章总结1. Overcoming Language Priors in VQA via Decomposed Linguistic Representations——(AAAI2020)模型简介：下面拆分成Question 分解和Answer prediction两部分介绍一下整个模型运行的过程。Question 分解：该方法包括语言注意模块、问题识别模块、对象引用模块和视觉验证模块，其中：（1）语言注意模块将问题解析为三个短语表示：类型表示（qtype）、对象表示（q

2021-01-29 14:08:58 362

原创 a bytes-like object is required, not ‘str‘问题解决记录

在调试自底向上这篇论文代码时由于作者是2018年编程在pythob2.7环境下，我在调试时用了python3.8版本，出现：经过网上查询原因分析是Python2 和 Python3 的字符串兼容问题，数据文件是在Python2下是序列化的，所以使用Python3读取时，需要将‘str’转化为’bytes’。#新建一个类StrToBytes class StrToBytes: def __init__(self, fileobj): self.file

2020-12-18 17:13:05 901 1

原创 LINEAR LAYERS

Linear层Examples1：import torchx = torch.randn(128, 20) # 输入的维度是（128，20）m = torch.nn.Linear(20, 30) # 维度 20,30output = m(x)print('m.weight.shape:\n ', m.weight.shape)print('m.bias.shape:\n', m.bias.shape)print('output.shape:\n', output

2020-12-03 13:22:12 415

原创 GeLU、ReLU函数学习

高斯误差线性单元在bert模型里，里边的激活函数不是Relu等常见的函数，是一个新的激活函数GELU。在神经网络的建模过程中，模型很重要的性质就是非线性，同时为了模型泛化能力，需要加入随机正则，例如dropout(随机置一些输出为0,其实也是一种变相的随机非线性激活)，而随机正则与非线性激活是分开的两个事情，而其实模型的输入是由非线性激活与随机正则两者共同决定的。GELU正是在激活中引入了随机正则的思想，是一种对神经元输入的概率描述，直观上更符合自然的认识，同时实验效果要比Relu与ELU都要好。

2020-12-02 20:36:57 10792

原创代码复现结果Cross-Modality Relevance for Reasoning on Language and Vision

The image bounding box feature files are very large, espeically the training bounding box file has around 40GB.Make sure both CPU and GPU memory are enough to load the data and model.Epoch 0: Train 98.93Epoch 0: Valid 73.02Epoch 0: Best 73.02Epoch 1:

2020-12-01 09:15:01 277 1

原创 Relation-Aware Graph Attention Network for Visual Question Answering阅读笔记

Abstract这篇论文的工作以一个新的维度为中心，使用问题自适应的对象间关系丰富图像表示，以提高VQA性能。主要有以下的贡献：1、我们提出了一种新的基于图形的关系编码器，用于通过图形注意网络学习视觉对象之间的显式和隐式关系。2、学习到的关系是问题自适应的，这意味着它们可以动态地捕捉与每个问题最相关的视觉对象关系。一背景大多数现有技术对VQA的重点在于学习图像和问题的多模态联合表示。具体而言，卷积神经网络（CNN）或基于区域的CNN（R-CNN）是通常用作图像编码的视觉特征提取器。并且递归神经网

2020-11-30 21:43:59 1513

原创问题记录CUDA out of memory.

RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 927.65 MiB already allocated; 429.55 MiB free; 1014.00 MiB reserved in total by PyTorch) 报错1.可能是之前运行的程序没有释放导致空间占据,释放内存2.改小全局变量中batch_size的值，尝试改成1...

2020-11-16 16:34:55 411

原创 Cross-Modality Relevance for Reasoning on Language and Vision阅读笔记

语言和视觉推理的跨情态关联引言：本文设计了一个新颖的跨模态关联模块，用于端到端的框架中，对不同模态的信息进行关联。在文本实体和视觉实体之间的相关性建模之外，还对文本中的实体关系和图像中的对象关系之间的高阶相关性进行建模，该模块更适用于未观察到的数据。1 介绍当前研究人员通过连接特征、对齐表示空间来开发模型。然而，当对未观察到的数据进行操作时，普遍性仍然是一个问题。深度学习模型很难捕捉高阶推理模式，而这对于它们的推广性是至关重要的。有几个具有挑战性的研究方向来解决跨模态数据的学习表示和支持目标任务的推

2020-10-28 13:09:08 647

原创 In Defense of Grid Features for Visual Question Answering论文阅读

In Defense of Grid Features for Visual Question Answering 论文阅读Abstract作为“自底向上”关注，基于边界框（或区域）的视觉特征最近已经超过了普通的基于网格的卷积特征，成为视觉和语言任务（如视觉问题回答（VQA））的事实标准。然而，还不清楚地区的区域（例如更好的定位）是否是自下而上注意力成功的关键原因。在这篇文章中，我们重新审视了VQA的网格特性，发现它们可以非常好地工作——以同样的精度运行速度快一个数量级以上。通过大量的实验，验证了这一观

2020-09-29 14:50:21 371

原创《Stacked Attention Networks for Image Question Answering》论文阅读

《Stacked Attention Networks for Image Question Answering》论文阅读摘要本文介绍了堆叠注意力网络(SANs)，它学习从图像中回答自然语言问题，San使用问题的语义表示作为查询来搜索图像中与答案相关的区域，通过多次查询一个映像，在四个图像质量保证数据集上进行的实验表明，该方法明显优于以往的先进方法。一、介绍图像中有几个物体:自行车、窗户、街道、篮子和问题:自行车上的篮子里放着什么？堆叠注意力网络首先关注第一关注层中所有被提及的概念，例如自行车、

2020-09-15 14:25:01 232

trouble的博客