《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
来源:CVPR 2018
参考CSDN博客:
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answeringblog.csdn.net
一、Introduction
本文提出了联合bottom-up 和top down的注意力机制,对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。
1.the bottom-up mechanism(Faster R-CNN):提取图像区域,每个图像区域由池化的卷积特征向量表示
2.the top-down mechanism:决定图像上特征向量的注意力权值
用Faster R-CNN方法进行目标检测
提取出的目标区域的mean-pooled convolutional feature定义为 \nu_{i}
为了帮助学习更好的特征,