![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
研究生文献阅读
文章平均质量分 91
幽灵深度学习
计算机博士,研究人工智能计算机视觉问答、多模态任务等。
展开
-
论文解读:Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering
Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering1.abstract视觉问答是一个多任务涉及到自然语言处理(NLP)和计算机视觉(CV),这需要模型来理解视觉信息和文本信息的同时预测输入视觉图像和文本的正确答案的问题,已广泛应用于智能和智能交通系统、智能城市和其他领域。今天,先进的VQA方法通过设计共同注意机制来模拟图像区域和问题单词之间的密集交互,以实现更好的准确性。但是,建模每个图像区域和每个原创 2021-03-10 16:16:08 · 592 阅读 · 0 评论 -
论文解读 Where to look:Focus Regions for visual question answering
1、abstract 我们提出了一种通过选择与基于文本的查询相关的图像区域来学习回答视觉问题的方法,我们的方法将来自不同区域的文本查询和视觉特征映射到共享空间与模态内部的相关性进行比较。在视觉问答中,比如“什么颜色”,这需要计算一个具体的局部位置,比如“什么样的房间”,需要选择性的识别图像区域信息。我们的方法在这些方面取得了重要的进展。我们的模型还在VAQ数据集上进行了测试。2、Introduction 视觉问答(VQA)是回答关于图像的自然语言问题的任务。VQA包括语言...原创 2021-03-04 09:55:16 · 358 阅读 · 0 评论 -
Multi-modality Latent Interaction Network for Visual Question Answering
目录 一、文献摘要介绍 二、网络框架介绍 三、实验分析 四、结论 本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流, 另附:论文地址 一、文献摘要介绍 Exploiting relationships between visual regions and question words have achieved great ...转载 2021-02-04 10:04:32 · 264 阅读 · 0 评论 -
2021-01-03
用于视觉问题回答的紧凑三线性交互模型《Compact Trilinear Interaction for Visual Question Answering》 Tiám青年 ...转载 2021-01-03 18:40:12 · 153 阅读 · 0 评论 -
Visual question answering: a state‑of‑the‑art review(二)
上一篇链接:https://blog.csdn.net/sx1996csdn/article/details/111608040目录5 Datasets6 Performance evaluation7 Discussions andfuture directions7.1 VQA phases7.2 Datasets7.3 Evaluation7.4 Others8 Conclusion5 Datasets本节详细讨论了用于验证VQA模型及其特征的各种公开...原创 2020-12-25 19:32:35 · 478 阅读 · 0 评论 -
Visual question answering: a state‑of‑the‑art review(一)
论文下载地址:https://link.springer.com/article/10.1007/s10462-020-09832-7Abstract 视觉问答(VQA)是计算机视觉和自然语言处理两大研究领域广泛关注的课题。近年来,图灵测试作为一种替代视觉图灵测试的人工智能完成任务得到了广泛的应用。在它最常见的形式中,它是一个多模态的挑战任务,要求计算机提供关于输入图像的自然语言问题的正确答案。它吸引了许多深度学习研究人员,因为他们在文本、语音和视觉技术方面取得了卓越的成就。本综述在逐...原创 2020-12-25 10:28:11 · 472 阅读 · 0 评论 -
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
近期,京东AI研究院的何晓冬博士、京东及英国剑桥大学的张超博士、和美国著名对冲基金Citadel的邓力博士和杨子超博士就这一前沿研究主题发表了题目为“Multimodal Intelligence: RepresentationLearning, Information Fusion, and Applications”的综述论文,对主要基于文本和图像处理的多模态研究,如图像字幕生成、基于文本的图像生成、视觉问答、视觉推理等方向的相关研究,从表征学习、信息融合和具体应用三个角度进行了综述和回顾,并对未来..转载 2020-12-22 09:36:37 · 1421 阅读 · 0 评论 -
用于视觉问题回答的差异化注意力模型《Differential Attention for Visual Question Answering》
目录 一、文献摘要介绍 二、网络框架介绍 三、实验分析 四、结论 这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。 一、文献摘要介绍 In this paper we aim to answer questions based on images when provided with a dataset of questi...转载 2020-12-18 15:04:00 · 233 阅读 · 0 评论 -
用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》
《Attention on Attention for Image Captioning》 Tiám青年 2019-11-17 23:21:10 ...转载 2020-12-17 21:23:39 · 1498 阅读 · 0 评论 -
An Improved Attention for Visual Question Answering
An Improved Attention for Visual Question Answering abstract 本文考虑了可视化问答(VQA)问题。给定一个图像和一个自由形式的、开放式的、用自然语言表达的问题,VQA系统的目标是提供关于图像的这个问题的准确答案。这项工作具有挑战性,因为它需要同时和复杂的理解视觉和文字信息。注意力(Attention)捕捉了内部和模式间的依赖关系,可能成为解决这些挑战的最广泛使用的机制。在本文中,我们提出了一种改进的基于注意力的架构来解决VQA问...原创 2020-12-17 21:09:30 · 619 阅读 · 0 评论 -
研究生如何做文献阅读笔记
**研究生如何做文献阅读笔记**研究生如何做文献阅读笔记?说实在的,我自己也不是很会读书。读书的速度也不快,只是喜欢读书罢了。阅读文献,对于开题期间的研究生和写论文期间的研究生是很重要的功课,不可忽视,这种能力是需要训练的。关于做读书和文献阅读笔记,这里谈点个人的看法,算是跟年轻朋友们的交流,也希望得到专家们的指教。如何选择和阅读文献?阅读文献,要力求对一个方面或一个主题,或者一个概念的历史发展都要搞清楚,清楚来龙去脉。文献有新有旧,有些学科或专题文献的半衰期很长,经典文献的阅读是很重要的,只原创 2020-07-26 10:20:47 · 10295 阅读 · 1 评论