论文解读:Feature Enhancement in Attention for Visual Question Answering

这是关于VQA问题的第十篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Feature Enhancement in Attention for Visual Question Answering

1,主要思想:

这是2018年顶会(International Joint Conference on Artificial Intelligence )的一篇关于vqa的论文。本文提出vqa问题中视觉和文本表示空间的不同对结果有影响。为了可以更好的应用注意力机制,作者提出在特征上下功夫,即是,如何更有效的提取视觉信息。主要特征加强办法有:(注意,本文有两个容易混淆的概念:区域表示和区域语义表示,区域表示就是我们通常理解的视觉特征,区域语义表示是本文提出给区域的文本表示)

  • 利用区域语义表示计算attention权重:区域语义表示和问题更加相关,
  • 利用层次表示丰富区域表示:层次提取视觉特征
  • 改善区域语义表示:区域语义表示还可以附有更多的信息,可以加入概率信息,而不是单纯的语义

2,模型结构

a.特征增强模型的概述

在这里插入图片描述

  • feature encoding part:采用GRU对文本进行编码,采用Faster R-CNN(bottom-up attention model)提取视觉特征k个。

  • attention part:权重的计算过程,R部分是后面再确定的。
    在这里插入图片描述
    在这里插入图片描述

  • Feature Fusion Part:特征融合
    在这里插入图片描述

  • 预测输出:
    在这里插入图片描述

b.第一种视觉特征提取办法:V/V: Conventional Attention(图a)

也就是用图像计算与问题的相关性权重,并对图像进行加权求和。
在这里插入图片描述

c.第二种视觉特征提取办法:T/V: Region Semantic Representation(图b)

T:图像语义空间表示,即是,对图像区域进行预测类别标签,用对应的词向量作为图像区域语义表示,然后用这个和问题表示计算权重。后面步骤一样

d. 第三种视觉特征提取办法:TV/V and TV/TV: Representation Enrichment using Multi-Level Features

语义表达有时候过于抽象,为了能够获取更加具体的信息,把语义信息和图像信息合并起来与问题表示计算权重。同理,在特征融合的时候也可以同时考虑语义表示和图像特征。(多级别的图像特征使用)
在这里插入图片描述
在这里插入图片描述

e.第四种视觉特征提取办法:rTV/V and rTV/rTV: Semantic Representation Refinement

有时候我们在类别标签预测的时候,并不是很准确,所以预测时,前面topk的预测信息都应该有用,所以可以在语义表示的时候加入概率特征。
在这里插入图片描述

3,主要贡献

  • 提出了很多特征加强的技术,这是个比较有特色的创新
  • 加入概率信息提取丰富的语义表示
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Object detection in remote sensing images is a challenging task due to the complex backgrounds, diverse object shapes and sizes, and varying imaging conditions. To address these challenges, fine-grained feature enhancement can be employed to improve object detection accuracy. Fine-grained feature enhancement is a technique that extracts and enhances features at multiple scales and resolutions to capture fine details of objects. This technique includes two main steps: feature extraction and feature enhancement. In the feature extraction step, convolutional neural networks (CNNs) are used to extract features from the input image. The extracted features are then fed into a feature enhancement module, which enhances the features by incorporating contextual information and fine-grained details. The feature enhancement module employs a multi-scale feature fusion technique to combine features at different scales and resolutions. This technique helps to capture fine details of objects and improve the accuracy of object detection. To evaluate the effectiveness of fine-grained feature enhancement for object detection in remote sensing images, experiments were conducted on two datasets: the NWPU-RESISC45 dataset and the DOTA dataset. The experimental results demonstrate that fine-grained feature enhancement can significantly improve the accuracy of object detection in remote sensing images. The proposed method outperforms state-of-the-art object detection methods on both datasets. In conclusion, fine-grained feature enhancement is an effective technique to improve the accuracy of object detection in remote sensing images. This technique can be applied to a wide range of applications, such as urban planning, disaster management, and environmental monitoring.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值