《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

最新推荐文章于 2024-07-03 21:30:04 发布

黄鑫huangxin

最新推荐文章于 2024-07-03 21:30:04 发布

阅读量3.5k

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33373858/article/details/81509777

版权

该论文提出了一种结合底部向上和顶部向下注意力的机制，应用于图像标题生成和视觉问题回答任务。底部向上机制通过Faster R-CNN检测目标物体，顶部向下机制决定特征的注意力权重。通过额外的属性预测输出增强特征学习。模型包含两个LSTM模块，分别用于语言理解和注意力引导。VQA模型也采用了类似的软注意力机制，通过门控双曲正切激活融合加权后的图像和文本特征。

摘要由CSDN通过智能技术生成

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

来源：CVPR 2018

参考CSDN博客：

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answeringblog.csdn.net

一、Introduction

本文提出了联合bottom-up 和top down的注意力机制，对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。

1.the bottom-up mechanism（Faster R-CNN）：提取图像区域，每个图像区域由池化的卷积特征向量表示

2.the top-down mechanism：决定图像上特征向量的注意力权值

用Faster R-CNN方法进行目标检测

提取出的目标区域的mean-pooled convolutional feature定义为 $\nu_{i}$ \nu_{i}

为了帮助学习更好的特征，

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。