论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

最新推荐文章于 2023-05-22 14:08:18 发布

懒洋洋的蛋蛋

最新推荐文章于 2023-05-22 14:08:18 发布

阅读量699

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42192254/article/details/105216698

版权

1. 引言

在image captioning和VQA中为了生成搞质量的输出，需要精细的视觉处理甚至多步推导。所以，视觉注意机制被广泛的应用。

两个定义：

top-down：nonvisual or task-specific context
bottom-up：purely visual feed-forward attention mechanisms

在image captioning和VQA中大部分注意机制为top-down，这种方法很少考虑需要注意的区域是如何确定的。如Figure 1的左图。但是，关注图像中的显著物体和区域有助于生成更加生动自然的图像描述。

综上所述，本文提出了一种bottom-up和top-down的联合注意机制。

2. 模型

2.1 bottom-up attention model

运用Faster R-CNN（bottom-up attention）生成一系列的空间图像特征
在这里插入图片描述

Faster R-CNN

Faster R-CNN通过两步实现目标检测。

RPN(Region Proposal Network)
一个小卷积在卷积网络中间层滑动，在每一个空间位置，生成一个未知类的对象的分和一个改进anchor boxes得到的bounding box，利用非极大值抑制获得一系列box proposals。
非极大值抑制：https://www.cnblogs.com/makefile/p/nms.html
第二阶段运用region of interest (RoI) pooling为每个box proposal抓取14X14的特征图。然后这些特征图输入到CNN最后基层中，输出分类分数和bounding box。

Faster R-CNN详见：https://zhuanlan.zhihu.com/p/31426458

2.2 captioning model

caption生成模型由两个LSTM组成。第一层为视觉注意层，第二层为语言生成层。
在这里插入图片描述

2.2.1 Top-Down Attention LSTM

每个时间步骤，注意LSTM层的输入为：
在这里插入图片描述
其中，
第一层的注意LSTM最终生成注意权重

3.2.2 language LSTM

输入：在这里插入图片描述
在每个时间步骤，可能的输出单词的条件分布为：

完全的序列输出分布为：

懒洋洋的蛋蛋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。