视觉问答
智商25的憨憨
这个作者很懒,什么都没留下…
展开
-
《Stacked Attention Networks for Image Question Answering》 论文分析 and 代码分析(待完善)
一.模型 SAN其实主要分为3个部分:LSTM/CNN(用来提取输入的问题特征)、CNN(提取图像特征)、Attention(注意力层)。其中CNN部分其实不是集成在SAN网络中的,原文的实现方式其实是用已经预训练好了的VGG16来提取图片feature,然后直接调用这些feature,而不会去更新VGG16网络的权重。所以最终实际程序需要实现的部分其实就是LSTM/CNN部分和Attention部分。二.模型精读2.1Image Model首先image应当在输入VGG16网络...原创 2020-06-29 00:53:43 · 376 阅读 · 0 评论 -
无题
https://www.zhuanzhi.ai/paper/af7391e7dcf3fbe0e5510b3e94382d99https://amds123.github.io/vqa/https://github.com/hengyuan-hu/bottom-up-attention-vqatorch中文https://ptorch.com/docs/1/原创 2020-04-23 12:04:03 · 139 阅读 · 0 评论 -
Overcoming Language Priors in VQA via Decomposed Linguistic Representations——(AAAI2020)论文阅读笔记
最近看了两篇文章,都关于解决VQA先验性的问题。其次是一篇AAAI2020上面的文章:《Overcoming Language Priors in VQA via Decomposed Linguistic Representations》,即《用分解语言表示克服VQA中的语言先验》。该篇文章是对CVPR2018的文章《Don’t Just Assume; Look and Answer:Over...原创 2020-04-13 01:32:04 · 760 阅读 · 0 评论 -
Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering——论文阅读笔记
最近看了两篇文章,都关于解决VQA先验性的问题。首先是一篇CVPR上面的文章:《Don’t Just Assume; Look and Answer:Overcoming Priors for Visual Question Answering》,即《不要只是假设;看和回答:克服视觉问题回答的先验知识》1.Abstract许多研究发现,如今的视觉问答(VQA)模型很大程度上受到训练数据表...原创 2020-04-13 01:16:31 · 1033 阅读 · 0 评论 -
《Customized Image Narrative Generation via Interactive Visual Question Generation and Answering》论文阅读
最近看了一篇文章,文章题目是:《Customized Image Narrative Generation via Interactive Visual Question Generation and Answering》,即《基于交互式视觉问答的个性化图像叙事生成》,是CVPR2019年的文章。看到网上暂时没有相关讲解,这边发表一些个人拙见,欢迎批评指正!1.Abstract如该论...原创 2020-04-11 22:24:46 · 467 阅读 · 0 评论 -
Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会
最近刚好在写综述,也看了一篇较早的综述性文章,作为VQA入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用。文章下载地址:Visual Question Answering: Datasets, Algorithms, and Future Challenges——下载地址目录1.文章导读2.文章精读2.1经典的数据集介绍...原创 2020-03-01 18:23:00 · 1387 阅读 · 0 评论 -
下载论文的好方法
想办法在知网、百度学术、校内图书馆或在https://sci-hub.org.cn/搜论文,找到论文复制论文的DOI,然后在http://sci-hub.tw中粘贴DOI,即可获得文章。原创 2020-02-29 18:16:33 · 197 阅读 · 0 评论 -
Cycle-Consistency for Robust Visual Question Answering阅读笔记
近日看了一篇CVPR的文章:《Cycle-Consistency for Robust Visual Question Answering》,即“用于鲁棒性视觉问答的循环一致性模型”。感兴趣的同学可参考原文:Cycle-Consistency for Robust Visual Question Answering目录一.abstract二.文章精读2.1Introductio...原创 2020-02-23 18:09:33 · 911 阅读 · 0 评论 -
Visual Question Answering with Memory-Augmented Networks读书笔记
近日看了一篇CVPR的文章:《Visual Question Answering with Memory-Augmented Networks》,即“基于记忆增强网络的视觉问答”。感兴趣的同学可参考原文:Visual Question Answering with Memory-Augmented Networks 目录一.abstract二.研究背景2.1Introdu...原创 2020-02-16 16:51:44 · 565 阅读 · 0 评论 -
Learning Visual Knowledge Memory Networks for Visual Question Answering 心得体会
学习视觉知识记忆网络进行视觉问答CVPR2018Learning Visual Knowledge Memory Networks for Visual Question Answering摘要视觉问题回答(VQA)需要联合图像和自然语言问题,其中许多问题不能直接或清楚地从视觉内容中得到,而是需要从结构化人类知识推理并从视觉内容中得到证实。该论文提出了视觉知识记忆网络(VKMN)来解决这个...原创 2020-02-08 22:01:49 · 753 阅读 · 0 评论 -
IQA: Visual Question Answering in Interactive Environments 心得体会
近日看了CVPR 2018的一篇论文,IQA:Visual question answering in interactive envionments,主要描述的是用一个代理与视频内容进行交互,回答基于视频的问题。之前未看过这方面的论文,并且网上也没有关于这篇论文的解说,所以在此记录一些个人心得体会,如有错误,还望各位老师给予批评指正! 人工智能社区的一个长期目标是...原创 2020-01-19 16:50:21 · 661 阅读 · 0 评论 -
MUREL:Multimodal Relational Reasoning for Visual Question Answering阅读笔记
引入 多模态注意力网络目前是设计真实图像的视觉问答(VQA)任务的现有技术模型,但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。因此,本文提出了MuRel(多模态关系网络),一个能在真实图像中学习端到端推理的多模态关系网络。我们的贡献主要有两个:一是引入了MuRel单元,这是一个自动推理原语,能够表示问题和图像区域之间丰富的交互信息,它基于一个向量表示...原创 2020-01-02 18:49:12 · 1039 阅读 · 0 评论 -
Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会
近日研读了一篇文章,题目:《Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering》这篇文章是CVPR2019的文章,作者主要来自港中文。文章链接如下:Dynamic Fusion with Intra- and Inter-modality Attention Flow ...原创 2019-11-24 20:27:29 · 1070 阅读 · 1 评论