论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

1. 引言

在image captioning和VQA中为了生成搞质量的输出,需要精细的视觉处理甚至多步推导。所以,视觉注意机制被广泛的应用。

两个定义:

  1. top-down:nonvisual or task-specific context
  2. bottom-up:purely visual feed-forward attention mechanisms

在image captioning和VQA中大部分注意机制为top-down,这种方法很少考虑需要注意的区域是如何确定的。如Figure 1的左图。但是,关注图像中的显著物体和区域有助于生成更加生动自然的图像描述。

综上所述,本文提出了一种bottom-up和top-down的联合注意机制。

2. 模型

2.1 bottom-up attention model

运用Faster R-CNN(bottom-up attention)生成一系列的空间图像特征
在这里插入图片描述

Faster R-CNN

Faster R-CNN通过两步实现目标检测。

  1. RPN(Region Proposal Network)
    一个小卷积在卷积网络中间层滑动,在每一个空间位置,生成一个未知类的对象的分和一个改进anchor boxes得到的bounding box,利用非极大值抑制获得一系列box proposals。
    非极大值抑制:https://www.cnblogs.com/makefile/p/nms.html
  2. 第二阶段运用region of interest (RoI) pooling为每个box proposal抓取14X14的特征图。然后这些特征图输入到CNN最后基层中,输出分类分数和bounding box。

Faster R-CNN详见:https://zhuanlan.zhihu.com/p/31426458

2.2 captioning model

caption生成模型由两个LSTM组成。第一层为视觉注意层,第二层为语言生成层。
在这里插入图片描述

2.2.1 Top-Down Attention LSTM

每个时间步骤,注意LSTM层的输入为:
在这里插入图片描述
其中,在这里插入图片描述
第一层的注意LSTM最终生成注意权重
在这里插入图片描述
在这里插入图片描述

3.2.2 language LSTM

输入:在这里插入图片描述
在每个时间步骤,可能的输出单词的条件分布为:
在这里插入图片描述
完全的序列输出分布为:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值