![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读笔记
文章平均质量分 61
睡觉不准打呼噜
小白养成日记
展开
-
A negative case analysis of visual grounding methods for VQA,CVPR 2020
Github: https://github.com/erobic/negative_analysis_of_grounding摘要:已存在的VQA模型利用数据歧视(bias)和错误的统计相关性来回答问题,而非利用争取的原因。最近的方法引入视觉线索(人的注意力图)来建立更好的VQA模型。本文发现该方法起效果的原因是其起到正则化的作用,避免语言先验产生过拟合。即使随机引入视觉线索也能起到类似的效果。因此,本文提出了一种简单的正则化方案,其在VQA-CPv2上也取得较好结果。引言:多数已有模型由于利原创 2021-04-14 16:44:25 · 281 阅读 · 0 评论 -
Stacked Attention Networks for Image Question Answering
Motivation: 堆叠注意力网络(SAN)已经成功应用在图像注释任务和机器翻译任务上。Contributions: (1) 提出使用SAN来进行视觉问答;(2)在四个数据库上进行综合评估;(3)对注意力的作用可视化分析一.方法1.图像模型使用VGG得到512*14*14的特征图,相当于196个维度为512的图像区域特征,再对每个特征进行变换和tanh激活。2.问题模型(1)基于LSTM的问题模型单词使用独热ont-hot表示,经映射矩阵得到新的向...原创 2020-12-10 16:29:43 · 258 阅读 · 0 评论 -
【阅读笔记】Dynamic Memory Networks for Visual and Textual Question Answering
Motivation:使用动态记忆网络DMN进行问答任务。DMN (Ask Me Anything: Dynamic Memory Networks for Natural Language Processing)。一.方法:文本特征提取 使用DMN+,包含句子阅读器进行单词编码,和输入融合层(允许句子间的交互)。其中句子阅读器使用的是位置编码,融合层使用的是双向GRU。从而得到文本事实。 2.图像特征的提取(1)图像放缩到448*448,使用VGG-19得到512*1...原创 2020-12-09 19:46:25 · 216 阅读 · 0 评论 -
论文阅读 【Explicit Knowledge-based Reasoning for Visual Question Answering】CVPR2016
一.摘要:通过知识库进行视觉问答,不仅能够使用图像中不包含的概念,还可以解释推理过程。另外,本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。Motivation:之前的CNN+Lstm方法只能回答简单的问题,并且对先验信息的利用不足,最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联;问题再转换成基于图像和知识库信息的方法,经过多层推理得到最终答案。背景:大规模的结构化知识库将关系表示成(arg1,re1,ar..原创 2020-12-07 20:14:02 · 619 阅读 · 0 评论 -
论文阅读 【Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering】
Motivation:图像注释任务对整个场景进行描述,而不是关心特定的部分,其缺少人机交互过程。因此本文基于MS COCO构建了一个VQA数据集FM-IQA dataset,并提出了一个新的模型。一.数据收集1. 提问者对MS COCO数据集提问,并给出回答。2. 质量监测。从MSCOCO数据集随机采样了1000幅图像作为质量监控数据集,作为注释器的初始集(他们不知道这是一个测试)。(1)在注释者标记完之后对标记质量进行打分,只选择一些高分的注释者进行注释。(2)也会选择一些提有趣问题.原创 2020-12-06 20:05:56 · 329 阅读 · 0 评论 -
论文阅读 【Simple Baseline for Visual Question Answering】
一.介绍大多数方法都是用RNN提取文本特征,CNN提取图像特征后拼接,通过分类器预测答案。在此基础上,有些方法会加入视觉注意力机制。在图像注释任务上,只用词袋模型和CNN的方法虽然取得很好的效果,但在VQA上缺表现不如LSTM的方法。因此,本文根据该模型做出改进提出iBOWIMG.二.方法使用词袋模型提取问题的文本特征;使用GooLeNet提取视觉特征。问题先转换为独热向量,再通过词嵌入转换为特征。三. 实验分析:文本特征对答案的贡献分数远大于图像特征 ...原创 2020-12-06 15:45:09 · 382 阅读 · 0 评论 -
论文阅读【VQA: Visual Question Answering】2015
一.介绍Motivation: 基于粗糙场景水平的图像和n-gram统计的方法就能获得合理的图像注释,说明图像注释这个任务并不是具有大智慧。真正的人工智能算法应该(1)需要多模态知识(2)有合理的评价指标。因此,本文介绍了一个具有自由性和开放性的视觉问答任务,即将自由、开放的自然语言问题和图像作为输入,获得一个答案。贡献:1.数据集:图像:MS coco的2040721幅图和新创建的50000幅图。 问题:每幅图像提出3个问题,约760K问题。 答案:每个问题有10个人回答,并且有答案置原创 2020-12-05 15:54:46 · 409 阅读 · 0 评论 -
HEMlets Pose: Learning Part-Centric Heatmap Triplets for Accurate 3D Human Pose Estimation,ICCV 2019
摘要:提出部件-中心-热图 三元组,构建空间体积,再用积分的方式实现端到端训练。介绍:三个挑战(1)从图像推到3D pose的歧义性问题(2)针对回归问题,已有的方法,没有很好的平衡,人体表示与学习效率的关系(3)室外场景训练数据匮乏。本文的提出的部件-中心热图三元组,将人体部件周围的体积空间极化,每个部件有两个关节点连接。其实,就是简单的一个2D heatmap的一张热图变成三张热图。方法:1.HEMlets一个关节点的一张热图变三张热图,代表前后次序2. 2D loss.原创 2020-08-17 15:22:00 · 618 阅读 · 1 评论 -
【阅读笔记】Geometry-Driven Self-Supervised Method for 3D Human Pose Estimation, AAAI 2020
摘要:传统的弱监督/自监督方法需要非成对三维信息,而本文的自监督方法仅以来人体的几何结构信息,不需要手工标注数据。代码地址:一、介绍:基于NN的直接回归方法非常容易产生过拟合。由于深度歧义性问题,重投影损失无法产生精确的姿态,即在另一个视角下该3D pose是错误的。多视角2D pose输入会积累噪声,得到的3D pose也不准确。贡献点:提出一个自监督框架。 设计了一个转换重投影损失,利用多视角适配信息;通过不同相机下的2D 关节点置信度来缓解自遮挡问题。 在两个数据集上表现好。.原创 2020-08-10 14:16:43 · 345 阅读 · 0 评论 -
【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019
摘要:简单的神经网络只会记忆训练集中2D 与3D 的拟合坐标,而不会考虑其真正的投影关系。因此本文利用GAN学习3D坐标的同时学习相机参数,通过重投影损失,降低直接估计的过拟合问题。该方法能对未知数据具有很好泛化能力。一、介绍模型包含三部分,输入到3D pose输出的生成器,判别3D pose是否合理可行的判别器,以及学习相机参数的NN。其中,判别器不仅记忆了来自数据集的3D pose,还能有效学习到判断合理三维姿态的方法,从而判别出训练集以外生成的3D pose的可行性。贡献点:提出基于重原创 2020-08-09 15:33:15 · 808 阅读 · 3 评论 -
【论文阅读】Semi-Dynamic Hypergraph Neural Network for 3D Pose Estimation,IJCAI-20
一、摘要:同时利用人体树形结构和链式结构创建超图,进而使用超图卷积进行三维人体姿态估计。二、简介:基于图像的三维人体姿态估计需要大量标注信息和计算资源,基于2D pose的直接回归方法缺乏图像线索;近年基于图卷积GCN的方法仅考虑相邻关节点的信息,但人体的链式结构使得非相邻关节点也有重要信息。因此,用超图重新表示人体。贡献点:(1)将人体表示为超图,包括固定关节点关系的静态超图和根据输入2D pos调整的半动态超图。(2)提出依据关节点之间距离大小,进行人体超图的构建方式。(3)实验结果原创 2020-08-08 13:12:25 · 595 阅读 · 2 评论