论文解读:A Focused Dynamic Attention Model for Visual Question Answering

这是关于VQA问题的第四篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:A Focused Dynamic Attention Model for Visual Question Answering

1,主要思想:

Focused Dynamic Attention (FDA)模型: 通过问题的关键词,识别图像中重要的对象;并通过LSTM单元融合来自区域和全局特征的信息。 然后将这种问题驱动的表示与问题表示相结合,并将其输入到用于生成答案的推理单元中。

2,模型

在这里插入图片描述

a.问题特征:

采用LSTM对问题文本提取问题表达信息。

b.图像特征

采用预训练的Deep Residual Networks model获取图像信息。

c.Focused Dynamic Attention Mechanism(重要部分)
  • 在训练期间,我们使用真实对象边界框和标签。 在测试时,预先计算的边界框,并用对它们进行分类,以获得对象标签。
  • 首先: 对于每个图像对象,它使用word2vec单词嵌入来测量问题单词和对象标签之间的相似性。
  • 其次: 它选择相似度得分大于0.5的对象,并用预先训练的ResNet模型提取对象边界框的特征向量。
  • 再次: 按照问题单词顺序,把这些图像特征送入LSTM网络。
  • 最后: 向LSTM网络提供整个图像的特征向量,并使用得到的LSTM状态作为视觉特征表示
d.产生预测

采用element-wise multiplication融合两个向量,用全连接加softmax输出。

3,主要贡献:
  • 提出了FDA模型,用于vqa问题;

  • 将局部和全局上下文视觉特征与文本特征融合在一起

  • 在过个模型上对比了开放域和多项选择两个数据集

  • FDA可以减少噪声的影响:只考虑了重要的对象,其他没有对象的部分都丢掉了。并采用attention机制,找到与问题相关的对象。

Flatten Transformer是一种使用Focused Linear Attention的Vision Transformer。它采用了类似于传统Transformer的self-attention结构,但在关注机制上进行了改进。具体来说,Flatten Transformer使用了Focused Linear Attention来代替传统的self-attentionFocused Linear Attention通过将注意力权重分配给图像的不同区域,使得模型能够更加关注重要的图像特征。 在Flatten Transformer中,图像首先被拆分成小块(patch),然后通过一个Embedding层转换成token。这个Embedding层将图像数据转换成一个向量,其形状为[num_token, token_dim,以适应Transformer Encoder的要求。接下来,Flatten Transformer使用Focused Linear Attention来计算每个token之间的关联性,并根据计算得到的注意力权重对它们进行加权求和。最后,经过Transformer Encoder和MLP Head的处理,模型可以输出对图像进行分类的结果。 关于Flatten Transformer的详细结构和实现,你可以参考引用中提供的论文和引用中提供的GitHub代码。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [狗都能看懂的Vision Transformer的讲解和代码实现](https://blog.csdn.net/weixin_42392454/article/details/122667271)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>