《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

zhaoliwen是猪啊

于 2021-04-15 17:09:32 发布

阅读量256

点赞数 1

分类专栏： image caption 文章标签：深度学习人工智能网络 python

本文链接：https://blog.csdn.net/lizefeng1998/article/details/115716533

版权

image caption 专栏收录该内容

10 篇文章 20 订阅

订阅专栏

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》是一篇关于image caption方向的论文，收录在2018CVPR中，最近在阅读这篇论文，因此做一篇关于该论文的笔记，有不对的地方大家可以在评论区进行探讨探讨。

什么是 Bottom-Up and Top-Down Attention

“在我们的方法中，Bottom-Up机制(基于Faster R-CNN)提出图像区域，每个区域都有一个相关的特征向量，而Top-Down机制决定特征权重”
“在人类的视觉系统中，注意力可以被由当前任务所决定的自上而下的信号(例如，寻找某物)所集中，也可以被与意外的、新奇的或显著的刺激相关的自下而上的信号所自动地集中”
“在本文中，我们采用了类似的术语，将非视觉或特定任务环境驱动的注意机制称为Top-Down，将纯视觉前馈注意机制称为Bottom-Up”。

Introduction

Image caption使用的大多数传统视觉注意机制都是自上而下的。将部分完成的字幕输出的表示或与图像相关的问题作为上下文。然而，这种方法很少考虑如何确定受到关注的图像区域。如图所示，产生的输入区域对应于大小和形状相同的神经感受野的均匀网格，而与图像的内容无关。为了产生更多类似人类的标题和问题答案，物体和其他显著的图像区域是更自然的注意力基础。

从下面两幅图中可以看出使用CNN需要使用比Faster R-CNN更多的特征，而且很多特征往往是无用的。Faster R-CNN的目标检测方法，首先针对图像获取兴趣区域，然后对每个兴趣区域应用目标检测器，这样就可以准确的获得图像类别；而CNN方法需要输入整幅图像，而且用于大样本分类的网络往往很复杂，计算量更大。另外，Faster R-CNN对之前几代R-CNN方法进行改进，实现了只输入一次就可以识别所有对象的能力，极大的提高的处理效率。
在这里插入图片描述

Approach —— Bottom-Up Attention Model

这项工作根据边界框定义了空间区域，并使用Faster R-CNN实现自下而上的注意
这项工作使用了Faster R-CNN和Resnet -101 CNN。对于每个选择的区域 i, ${v_i}$ 被定义为该区域的均值池卷积特征，使得图像特征向量的维数D为2048。
然后使用Visual Genome data 训练。为了帮助学习好的特征表示，本文增加了一个额外的训练输出，用于预测属性类(除了对象类)。

Approach —— Captioning Model

使用两个LSTM层选择性地处理空间图像特征{ ${v_1}$ ，…, ${v_k}$ }。这些特征可以定义为CNN的空间输出，或者按照我们的方法，使用自下而上的注意力生成。
在这里插入图片描述

Top-Down Attention LSTM

Top-Down Attention LSTM在每个时间步的输入向量由 Language LSTM的前一个时刻的隐层输出、平均池化图像特征 $\bar{v}=\frac {1} {k} \sum_{i}^{} {v_i}$ 连接，以及前一个生成的单词的编码组成。这些输入分别为Top-Down Attention LSTM提供了关于Language LSTM的最大的上下文信息、图像的整体内容和到目前为止生成的部分caption。

给定Top-Down Attention LSTM的t时刻隐变量输出 $h_t^1$ ，在每个时间步长t，我们为每k个图像特征 ${v_i}$ 生成一个归一化的注意权重 $\alpha_{a,i}$ ，如下所示: 在这里插入图片描述

Language LSTM

语言模型LSTM的输入由t时刻计算得到的的图像特征和Top-Down Attention LSTM的t时刻隐变量组成。
使用符号y1:T表示一组单词(y1,…, yT)，在每个时间步长t，可能输出单词的条件分布为:
在这里插入图片描述

zhaoliwen是猪啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》是一篇关于image caption方向的论文，收录在2018CVPR中，最近在阅读这篇论文，因此做一篇关于该论文的笔记，有不对的地方大家可以在评论区进行探讨探讨
复制链接

扫一扫

专栏目录