睡觉不准打呼噜-CSDN博客

原创 A negative case analysis of visual grounding methods for VQA，CVPR 2020

Github: https://github.com/erobic/negative_analysis_of_grounding摘要：已存在的VQA模型利用数据歧视（bias）和错误的统计相关性来回答问题，而非利用争取的原因。最近的方法引入视觉线索（人的注意力图）来建立更好的VQA模型。本文发现该方法起效果的原因是其起到正则化的作用，避免语言先验产生过拟合。即使随机引入视觉线索也能起到类似的效果。因此，本文提出了一种简单的正则化方案，其在VQA-CPv2上也取得较好结果。引言：多数已有模型由于利

2021-04-14 16:44:25 292

原创 Stacked Attention Networks for Image Question Answering

Motivation: 堆叠注意力网络（SAN）已经成功应用在图像注释任务和机器翻译任务上。Contributions: （1）提出使用SAN来进行视觉问答；（2）在四个数据库上进行综合评估；（3）对注意力的作用可视化分析一.方法1.图像模型使用VGG得到512*14*14的特征图，相当于196个维度为512的图像区域特征，再对每个特征进行变换和tanh激活。2.问题模型（1）基于LSTM的问题模型单词使用独热ont-hot表示，经映射矩阵得到新的向...

2020-12-10 16:29:43 269

原创【阅读笔记】Dynamic Memory Networks for Visual and Textual Question Answering

Motivation：使用动态记忆网络DMN进行问答任务。DMN (Ask Me Anything: Dynamic Memory Networks for Natural Language Processing)。一．方法：文本特征提取使用DMN+，包含句子阅读器进行单词编码，和输入融合层（允许句子间的交互）。其中句子阅读器使用的是位置编码，融合层使用的是双向GRU。从而得到文本事实。 2.图像特征的提取（1）图像放缩到448*448，使用VGG-19得到512*1...

2020-12-09 19:46:25 222

原创论文阅读【Explicit Knowledge-based Reasoning for Visual Question Answering】CVPR2016

一．摘要：通过知识库进行视觉问答，不仅能够使用图像中不包含的概念，还可以解释推理过程。另外，本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。Motivation:之前的CNN+Lstm方法只能回答简单的问题，并且对先验信息的利用不足，最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联；问题再转换成基于图像和知识库信息的方法，经过多层推理得到最终答案。背景：大规模的结构化知识库将关系表示成（arg1,re1,ar..

2020-12-07 20:14:02 639

原创论文阅读【Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering】

Motivation:图像注释任务对整个场景进行描述，而不是关心特定的部分，其缺少人机交互过程。因此本文基于MS COCO构建了一个VQA数据集FM-IQA dataset，并提出了一个新的模型。一．数据收集1. 提问者对MS COCO数据集提问，并给出回答。2. 质量监测。从MSCOCO数据集随机采样了1000幅图像作为质量监控数据集，作为注释器的初始集（他们不知道这是一个测试）。（1）在注释者标记完之后对标记质量进行打分，只选择一些高分的注释者进行注释。（2）也会选择一些提有趣问题.

2020-12-06 20:05:56 344

原创论文阅读【Simple Baseline for Visual Question Answering】

一．介绍大多数方法都是用RNN提取文本特征,CNN提取图像特征后拼接，通过分类器预测答案。在此基础上，有些方法会加入视觉注意力机制。在图像注释任务上，只用词袋模型和CNN的方法虽然取得很好的效果，但在VQA上缺表现不如LSTM的方法。因此，本文根据该模型做出改进提出iBOWIMG.二．方法使用词袋模型提取问题的文本特征；使用GooLeNet提取视觉特征。问题先转换为独热向量，再通过词嵌入转换为特征。三. 实验分析：文本特征对答案的贡献分数远大于图像特征 ...

2020-12-06 15:45:09 395

原创论文阅读【VQA: Visual Question Answering】2015

一．介绍Motivation: 基于粗糙场景水平的图像和n-gram统计的方法就能获得合理的图像注释，说明图像注释这个任务并不是具有大智慧。真正的人工智能算法应该（1）需要多模态知识（2）有合理的评价指标。因此，本文介绍了一个具有自由性和开放性的视觉问答任务，即将自由、开放的自然语言问题和图像作为输入，获得一个答案。贡献：1.数据集：图像：MS coco的2040721幅图和新创建的50000幅图。问题：每幅图像提出3个问题，约760K问题。答案：每个问题有10个人回答，并且有答案置

2020-12-05 15:54:46 419

原创 Pytorch踩坑集锦

1. GPU空间充足，但训练和测试同时进行时，报空间不足，即RuntimeError: CUDA out of memory.答：很多博文建议batch改小，但是可能很多人的错误在于没有固定网络，导致测试集进入网络时保存了大量参数值，因此：model.eval()with torch.no_grad(): for k, test_data in enumerate(test_loader):https://blog.csdn.net/xiaoxifei/article/d..

2020-10-10 19:32:16 235 1

原创 soft-argmax踩坑

最近在2D human pose estimation时需要用到soft-argmax，找了几个版本的函数，都有一个问题RuntimeError: "softmax_lastdim_kernel_impl" not implemented for 'Long'一、代码如下def softargmax2d(input, beta=100): *_, h, w = input.shape input = beta*input.reshape(*_, h * w) inpu

2020-09-19 13:52:32 1205

原创 HEMlets Pose: Learning Part-Centric Heatmap Triplets for Accurate 3D Human Pose Estimation，ICCV 2019

摘要：提出部件-中心-热图三元组，构建空间体积，再用积分的方式实现端到端训练。介绍：三个挑战（1）从图像推到3D pose的歧义性问题（2）针对回归问题，已有的方法，没有很好的平衡，人体表示与学习效率的关系（3）室外场景训练数据匮乏。本文的提出的部件-中心热图三元组，将人体部件周围的体积空间极化，每个部件有两个关节点连接。其实，就是简单的一个2D heatmap的一张热图变成三张热图。方法：1.HEMlets一个关节点的一张热图变三张热图，代表前后次序2. 2D loss.

2020-08-17 15:22:00 638 1

原创【阅读笔记】Geometry-Driven Self-Supervised Method for 3D Human Pose Estimation， AAAI 2020

摘要：传统的弱监督/自监督方法需要非成对三维信息，而本文的自监督方法仅以来人体的几何结构信息，不需要手工标注数据。代码地址：一、介绍：基于NN的直接回归方法非常容易产生过拟合。由于深度歧义性问题，重投影损失无法产生精确的姿态，即在另一个视角下该3D pose是错误的。多视角2D pose输入会积累噪声，得到的3D pose也不准确。贡献点：提出一个自监督框架。设计了一个转换重投影损失，利用多视角适配信息；通过不同相机下的2D 关节点置信度来缓解自遮挡问题。在两个数据集上表现好。.

2020-08-10 14:16:43 356

原创【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019

摘要：简单的神经网络只会记忆训练集中2D 与3D 的拟合坐标，而不会考虑其真正的投影关系。因此本文利用GAN学习3D坐标的同时学习相机参数，通过重投影损失，降低直接估计的过拟合问题。该方法能对未知数据具有很好泛化能力。一、介绍模型包含三部分,输入到3D pose输出的生成器，判别3D pose是否合理可行的判别器，以及学习相机参数的NN。其中，判别器不仅记忆了来自数据集的3D pose，还能有效学习到判断合理三维姿态的方法，从而判别出训练集以外生成的3D pose的可行性。贡献点：提出基于重

2020-08-09 15:33:15 833 3

原创【论文阅读】Semi-Dynamic Hypergraph Neural Network for 3D Pose Estimation，IJCAI-20

一、摘要：同时利用人体树形结构和链式结构创建超图，进而使用超图卷积进行三维人体姿态估计。二、简介：基于图像的三维人体姿态估计需要大量标注信息和计算资源，基于2D pose的直接回归方法缺乏图像线索；近年基于图卷积GCN的方法仅考虑相邻关节点的信息，但人体的链式结构使得非相邻关节点也有重要信息。因此，用超图重新表示人体。贡献点：（1）将人体表示为超图，包括固定关节点关系的静态超图和根据输入2D pos调整的半动态超图。（2）提出依据关节点之间距离大小，进行人体超图的构建方式。（3）实验结果

2020-08-08 13:12:25 606 2

原创对抗训练、领域适应中梯度反转的实现与测试

1.梯度反转的目标是：（1）正向传播时传递权值不变（2）反向传播时，神经元权值增量符号取反，即与目标函数方向切好相反达到对抗的目的2.梯度反转的实现：import tensorflow as tffrom tensorflow.python.framework import opsclass FlipGradientBuilder(object): def __i...

2019-06-11 14:14:02 3184 2

原创 tensorflow 张量插入或者删除的办法

如下所示part1 = new_enc_in[:, 0:3 ]part2 = new_enc_in[:, 3:]###part_new 要插入的张量new_enc_in = tf.concat([part1, part_new, part2], 1)##得到的张量里part_new为新插入列##如果要删除，则修改part2的范围part1 = new_enc_in[:, 0...

2018-11-20 15:19:57 11603

原创 tensorflow 反向传播求导

X=tf.constant([-1,-2],dtype=tf.float32)w=tf.Variable([2.,3.])truth=[3.,3.]Y=w*X# cost=tf.reduce_sum(tf.reduce_sum(Y*truth)/(tf.sqrt(tf.reduce_sum(tf.square(Y)))*tf.sqrt(tf.reduce_sum(tf.square(tru...

2018-03-20 17:48:21 1486

原创 tensorflow 训练时内存溢出问题

我最近在尝试写FCN时，用了两层5*5的卷积和两层5*5的反卷积，训练数据是2000张图片，每次循环输入一张图片，输出一个数字表示本次循环结束，发现程序越跑越慢，原因是内存持续增大了。网上搜了一下发现，没几个是对的，于是只能自己填坑（有个sess.graph.finalize()的，没用）。于是debug，发现每次循环输入图片后，每张图片前向传播产生的中间map都会保存下来，不会被清理掉（就是说每

2018-01-18 10:24:42 13619

原创 matconvnet入门

1.在matlab命令窗口输入mex -setup2.在matconvnet-1.0-beta25（或其他版本）路径下运行vl_setupnn.m 和 vl_compilenn.m3.以上就配好了MatConvNet在CPU下执行的环境4.载入需要的模型（http://www.vlfeat.org/matconvnet/pretrained/）net = load('imagen

2018-01-15 12:42:40 451

shuijiaobuzhundahulu的博客