自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 A negative case analysis of visual grounding methods for VQA,CVPR 2020

Github: https://github.com/erobic/negative_analysis_of_grounding摘要:已存在的VQA模型利用数据歧视(bias)和错误的统计相关性来回答问题,而非利用争取的原因。最近的方法引入视觉线索(人的注意力图)来建立更好的VQA模型。本文发现该方法起效果的原因是其起到正则化的作用,避免语言先验产生过拟合。即使随机引入视觉线索也能起到类似的效果。因此,本文提出了一种简单的正则化方案,其在VQA-CPv2上也取得较好结果。引言:多数已有模型由于利

2021-04-14 16:44:25 292

原创 Stacked Attention Networks for Image Question Answering

Motivation: 堆叠注意力网络(SAN)已经成功应用在图像注释任务和机器翻译任务上。Contributions: (1) 提出使用SAN来进行视觉问答;(2)在四个数据库上进行综合评估;(3)对注意力的作用可视化分析一.方法1.图像模型使用VGG得到512*14*14的特征图,相当于196个维度为512的图像区域特征,再对每个特征进行变换和tanh激活。2.问题模型(1)基于LSTM的问题模型单词使用独热ont-hot表示,经映射矩阵得到新的向...

2020-12-10 16:29:43 269

原创 【阅读笔记】Dynamic Memory Networks for Visual and Textual Question Answering

Motivation:使用动态记忆网络DMN进行问答任务。DMN (Ask Me Anything: Dynamic Memory Networks for Natural Language Processing)。一.方法:文本特征提取 使用DMN+,包含句子阅读器进行单词编码,和输入融合层(允许句子间的交互)。其中句子阅读器使用的是位置编码,融合层使用的是双向GRU。从而得到文本事实。 2.图像特征的提取(1)图像放缩到448*448,使用VGG-19得到512*1...

2020-12-09 19:46:25 222

原创 论文阅读 【Explicit Knowledge-based Reasoning for Visual Question Answering】CVPR2016

一.摘要:通过知识库进行视觉问答,不仅能够使用图像中不包含的概念,还可以解释推理过程。另外,本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。Motivation:之前的CNN+Lstm方法只能回答简单的问题,并且对先验信息的利用不足,最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联;问题再转换成基于图像和知识库信息的方法,经过多层推理得到最终答案。背景:大规模的结构化知识库将关系表示成(arg1,re1,ar..

2020-12-07 20:14:02 639

原创 论文阅读 【Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering】

Motivation:图像注释任务对整个场景进行描述,而不是关心特定的部分,其缺少人机交互过程。因此本文基于MS COCO构建了一个VQA数据集FM-IQA dataset,并提出了一个新的模型。一.数据收集1. 提问者对MS COCO数据集提问,并给出回答。2. 质量监测。从MSCOCO数据集随机采样了1000幅图像作为质量监控数据集,作为注释器的初始集(他们不知道这是一个测试)。(1)在注释者标记完之后对标记质量进行打分,只选择一些高分的注释者进行注释。(2)也会选择一些提有趣问题.

2020-12-06 20:05:56 344

原创 论文阅读 【Simple Baseline for Visual Question Answering】

一.介绍大多数方法都是用RNN提取文本特征,CNN提取图像特征后拼接,通过分类器预测答案。在此基础上,有些方法会加入视觉注意力机制。在图像注释任务上,只用词袋模型和CNN的方法虽然取得很好的效果,但在VQA上缺表现不如LSTM的方法。因此,本文根据该模型做出改进提出iBOWIMG.二.方法使用词袋模型提取问题的文本特征;使用GooLeNet提取视觉特征。问题先转换为独热向量,再通过词嵌入转换为特征。三. 实验分析:文本特征对答案的贡献分数远大于图像特征 ...

2020-12-06 15:45:09 395

原创 论文阅读【VQA: Visual Question Answering】2015

一.介绍Motivation: 基于粗糙场景水平的图像和n-gram统计的方法就能获得合理的图像注释,说明图像注释这个任务并不是具有大智慧。真正的人工智能算法应该(1)需要多模态知识(2)有合理的评价指标。因此,本文介绍了一个具有自由性和开放性的视觉问答任务,即将自由、开放的自然语言问题和图像作为输入,获得一个答案。贡献:1.数据集:图像:MS coco的2040721幅图和新创建的50000幅图。 问题:每幅图像提出3个问题,约760K问题。 答案:每个问题有10个人回答,并且有答案置

2020-12-05 15:54:46 419

原创 Pytorch踩坑集锦

1. GPU空间充足,但训练和测试同时进行时,报空间不足,即RuntimeError: CUDA out of memory.答:很多博文建议batch改小,但是可能很多人的错误在于没有固定网络,导致测试集进入网络时保存了大量参数值,因此:model.eval()with torch.no_grad(): for k, test_data in enumerate(test_loader):https://blog.csdn.net/xiaoxifei/article/d..

2020-10-10 19:32:16 235 1

原创 soft-argmax踩坑

最近在2D human pose estimation时需要用到soft-argmax,找了几个版本的函数,都有一个问题RuntimeError: "softmax_lastdim_kernel_impl" not implemented for 'Long'一、代码如下def softargmax2d(input, beta=100): *_, h, w = input.shape input = beta*input.reshape(*_, h * w) inpu

2020-09-19 13:52:32 1205

原创 HEMlets Pose: Learning Part-Centric Heatmap Triplets for Accurate 3D Human Pose Estimation,ICCV 2019

摘要:提出部件-中心-热图 三元组,构建空间体积,再用积分的方式实现端到端训练。介绍:三个挑战(1)从图像推到3D pose的歧义性问题(2)针对回归问题,已有的方法,没有很好的平衡,人体表示与学习效率的关系(3)室外场景训练数据匮乏。本文的提出的部件-中心热图三元组,将人体部件周围的体积空间极化,每个部件有两个关节点连接。其实,就是简单的一个2D heatmap的一张热图变成三张热图。方法:1.HEMlets一个关节点的一张热图变三张热图,代表前后次序2. 2D loss.

2020-08-17 15:22:00 638 1

原创 【阅读笔记】Geometry-Driven Self-Supervised Method for 3D Human Pose Estimation, AAAI 2020

摘要:传统的弱监督/自监督方法需要非成对三维信息,而本文的自监督方法仅以来人体的几何结构信息,不需要手工标注数据。代码地址:一、介绍:基于NN的直接回归方法非常容易产生过拟合。由于深度歧义性问题,重投影损失无法产生精确的姿态,即在另一个视角下该3D pose是错误的。多视角2D pose输入会积累噪声,得到的3D pose也不准确。贡献点:提出一个自监督框架。 设计了一个转换重投影损失,利用多视角适配信息;通过不同相机下的2D 关节点置信度来缓解自遮挡问题。 在两个数据集上表现好。.

2020-08-10 14:16:43 356

原创 【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019

摘要:简单的神经网络只会记忆训练集中2D 与3D 的拟合坐标,而不会考虑其真正的投影关系。因此本文利用GAN学习3D坐标的同时学习相机参数,通过重投影损失,降低直接估计的过拟合问题。该方法能对未知数据具有很好泛化能力。一、介绍模型包含三部分,输入到3D pose输出的生成器,判别3D pose是否合理可行的判别器,以及学习相机参数的NN。其中,判别器不仅记忆了来自数据集的3D pose,还能有效学习到判断合理三维姿态的方法,从而判别出训练集以外生成的3D pose的可行性。贡献点:提出基于重

2020-08-09 15:33:15 833 3

原创 【论文阅读】Semi-Dynamic Hypergraph Neural Network for 3D Pose Estimation,IJCAI-20

一、摘要:同时利用人体树形结构和链式结构创建超图,进而使用超图卷积进行三维人体姿态估计。二、简介:基于图像的三维人体姿态估计需要大量标注信息和计算资源,基于2D pose的直接回归方法缺乏图像线索;近年基于图卷积GCN的方法仅考虑相邻关节点的信息,但人体的链式结构使得非相邻关节点也有重要信息。因此,用超图重新表示人体。贡献点:(1)将人体表示为超图,包括固定关节点关系的静态超图和根据输入2D pos调整的半动态超图。(2)提出依据关节点之间距离大小,进行人体超图的构建方式。(3)实验结果

2020-08-08 13:12:25 606 2

原创 对抗训练、领域适应中梯度反转的实现与测试

1.梯度反转的目标是:(1)正向传播时传递权值不变(2)反向传播时,神经元权值增量符号取反,即与目标函数方向切好相反达到对抗的目的2.梯度反转的实现:import tensorflow as tffrom tensorflow.python.framework import opsclass FlipGradientBuilder(object): def __i...

2019-06-11 14:14:02 3184 2

原创 tensorflow 张量插入或者删除的办法

如下所示part1 = new_enc_in[:, 0:3 ]part2 = new_enc_in[:, 3:]###part_new 要插入的张量new_enc_in = tf.concat([part1, part_new, part2], 1)##得到的张量里part_new为新插入列##如果要删除,则修改part2的范围part1 = new_enc_in[:, 0...

2018-11-20 15:19:57 11603

原创 tensorflow 反向传播求导

X=tf.constant([-1,-2],dtype=tf.float32)w=tf.Variable([2.,3.])truth=[3.,3.]Y=w*X# cost=tf.reduce_sum(tf.reduce_sum(Y*truth)/(tf.sqrt(tf.reduce_sum(tf.square(Y)))*tf.sqrt(tf.reduce_sum(tf.square(tru...

2018-03-20 17:48:21 1486

原创 tensorflow 训练时内存溢出问题

我最近在尝试写FCN时,用了两层5*5的卷积和两层5*5的反卷积,训练数据是2000张图片,每次循环输入一张图片,输出一个数字表示本次循环结束,发现程序越跑越慢,原因是内存持续增大了。网上搜了一下发现,没几个是对的,于是只能自己填坑(有个sess.graph.finalize()的,没用)。于是debug,发现每次循环输入图片后,每张图片前向传播产生的中间map都会保存下来,不会被清理掉(就是说每

2018-01-18 10:24:42 13619

原创 matconvnet入门

1.在matlab命令窗口输入mex -setup2.在matconvnet-1.0-beta25(或其他版本) 路径下运行vl_setupnn.m 和 vl_compilenn.m3.以上就配好了MatConvNet在CPU下执行的环境4.载入需要的模型(http://www.vlfeat.org/matconvnet/pretrained/)net = load('imagen

2018-01-15 12:42:40 451

VQA2020_综述.pdf

涵盖2020各大顶会,视觉问答领域文章Motivation和Contributions

2020-12-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除