《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

该论文提出了一种结合底部向上和顶部向下注意力的机制,应用于图像标题生成和视觉问题回答任务。底部向上机制通过Faster R-CNN检测目标物体,顶部向下机制决定特征的注意力权重。通过额外的属性预测输出增强特征学习。模型包含两个LSTM模块,分别用于语言理解和注意力引导。VQA模型也采用了类似的软注意力机制,通过门控双曲正切激活融合加权后的图像和文本特征。
摘要由CSDN通过智能技术生成

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

来源:CVPR 2018

参考CSDN博客:

论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering​blog.csdn.net图标

一、Introduction

本文提出了联合bottom-up 和top down的注意力机制,对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。

1.the bottom-up mechanism(Faster R-CNN):提取图像区域,每个图像区域由池化的卷积特征向量表示

2.the top-down mechanism:决定图像上特征向量的注意力权值

用Faster R-CNN方法进行目标检测

提取出的目标区域的mean-pooled convolutional feature定义为 \nu_{i}\nu_{i}

为了帮助学习更好的特征,

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值