![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
视觉问答
小镇大爱
这个作者很懒,什么都没留下…
展开
-
Co-Attention Network With Question Type for Visual Question Answering论文笔记
这篇论文的创新点在于进行融合的时候加上了问题类型融合,c为问题类别预测原创 2020-04-14 14:15:50 · 307 阅读 · 0 评论 -
Unified Vision-Language Pre-Training for Image Captioning and VQA
本文提出了一种统一的视觉语言训练(VLP)模型..该模型的统一体现在两点:(1)可以对视觉语言生成(例如,图像标题)或理解(例如,视觉问题回答)任务进行微调(2)它使用共享的多层transformer网络进行编码和解码,这不同于许多现有的方法,现有的编码器和解码器是使用单独的模型实现的。利用双向和序列(seq2seq)mask视觉语言预测两个任务的无监督学习目标,对大量的图像-文本对进...原创 2020-02-01 00:29:52 · 1934 阅读 · 1 评论 -
Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
虽然以前的VQA直接将Image-Question元组(I,Q)映射到应答(A),但GVQA将VQA的任务分为两步:LOOK:找到回答问题所需的对象/图像块,并识别块中的视觉概念;从问题中找出合理答案的空间,并通过考虑哪些概念是合理的,从一组公认的视觉概念中返回适当的视觉概念。GVQA的另一个新颖之处是它把回答“是”/“否”作为一项直观的验证任务。给定一个问题和一个图像,问题首先通过问...原创 2020-01-22 15:22:09 · 616 阅读 · 0 评论 -
双线性注意力网络
一、摘要作者认为,多模式学习中的注意力网络提供了一种有效的方法,有选择的利用给定的视觉信息。但是,学习每对多模式输入通道的注意力分布计算的成本过高,为解决这个问题,共同注意为每个模式建立了两个单独的注意力分布,而忽略了多模式输入之间的交互。而在本文中作者提出了一种双线性注意力网络(BAN),它可以找到双线性注意力分布,来无缝地利用给定的视觉-语言信息。BAN考虑两组输入通道之间的双线性相互作用...原创 2020-01-06 15:15:02 · 3480 阅读 · 1 评论 -
Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记
一、摘要作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系,不足以正确回答问题。因为从人类的角度来看,回答视觉问题需要理解视觉和语言信息的总结。在这篇论文中,作者提出了用于视觉问答的多模态潜在交互网络模型(MLI)来解决这个问题。该模型学习潜在视觉和语言摘要之间的交叉模式关系,将视觉区域和问题归纳为少量的潜在表示,从而避免建模无信息单个视觉-问题关系。潜在摘要之间的跨模态信息被...原创 2019-11-29 10:35:42 · 861 阅读 · 0 评论 -
transformer二刷
Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。论文地址:https://link.zhihu.com/?target=https%3A//arxiv...转载 2019-11-19 11:24:04 · 284 阅读 · 0 评论 -
Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会
论文链接:https://arxiv.org/abs/1812.05252这篇论文提出了一种新的多模态特征融合方法——模式内与模式间注意流的动态融合的视觉问题回答,它可以在视觉和语言模式之间传递动态信息,它能够很好地捕捉语言和视觉领域之间的高层交互,从而显着地提高了视觉问题回答的性能。近年来,视觉问答(VQA)的性能得到了很大的提高,原因主要有三点:提取到了很好的视觉和语言特征表示;V...原创 2019-11-17 19:20:26 · 494 阅读 · 1 评论 -
Multi-level Attention Networks for Visual Question Answering阅读笔记
Multi-level Attention Networks这个模型可以同时提取高级语义信息和空间信息,模型框架如下所示:该模型分为三个部分,分别是Semantic Attention、Context-aware Visual Attention、Joint Attention Learning。Semantic Attention语义注意的工作是从图像中挖掘重要的概念来回答问...原创 2019-10-28 00:39:52 · 891 阅读 · 4 评论