Image Captioning with Semantic Attention

最新推荐文章于 2024-01-02 19:49:41 发布

luputo

最新推荐文章于 2024-01-02 19:49:41 发布

阅读量1k

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/89849990

版权

论文笔记专栏收录该内容

41 篇文章 3 订阅

订阅专栏

Image Captioning with Semantic Attention

原文地址

时间：2016年

inspiration

当时的image caption的模式有两种

top-down，将图片直接转化为词，优点是端到端，缺点是难以提取细节
bottom-up，先用几个词描述图片的各个方面，然后将词组合到一起，优点是可以提取细节，缺点是没有端到端的formulation

为了结合两者的优点，提出了一个semantic attention model

Model

overall framework

在这里插入图片描述
先用一个CNN将图像编码成 $v$ 作为全局的视觉信息的representation，此外，用一系列属性检测器来得到可能存在在图像中的一些属性和概念， $v$ 和 ${A_i}$ 引导RNN生成 $x_t$ 和 $p_t$ ，生成的词 $Y_t$ 将会参与组成到下一时刻的输入 $x_{t+1}$ ，计算公式如下
在这里插入图片描述

Input attention model

关于输入的attention模型 $\phi$ ，首先根据属性 $A_i$ 和上一轮预测的值 $Y_{t-1}$ 计算 $t$ 时刻每个属性的得分 $\alpha^{i}_{t}$ ，记 $A_i$ 为 $y^i$ ， $Y_{t-1}$ 为 $y_{t-1}$ ，它们都对应属性字典 $\mathcal{Y}$ 中的一个词，可以编码为 $R^{|\mathcal{Y}|}$ 中的一个向量，从而
在这里插入图片描述
为了避免维数太高，使用Word2Vec，来降低 $y^i$ 和 $y_{t-1}$ 的维数

其中 $E$ 是 $d\times |\mathcal{Y}|$ 的embedding矩阵， $d\ll|\mathcal{Y}|$
计算出的 $\alpha$ 作为attention用来调节各个属性的重要性，并映射到输入空间，作为下一时刻的输入
在这里插入图片描述
$w\in R^{d}$ ， $\text{diag}(w)$ 表示以向量 $w$ 作为对角线元素构成的对角矩阵，最右边的求和相当于在各个属性上的attention加权，乘上 $w$ 相当于在词向量每一个维度上进行的attention加权

output attention model

属性 $A_i$ 在时刻 $t$ 的权重 $\beta^{i}_t$ 计算为
在这里插入图片描述
其中 $V\in R^{n\times d}$ ， $\sigma$ 表示计算出 $h_t$ 的激活函数以保证 $V$ 左右两边经过了同样的非线性处理，此时可以计算 $p_t$ 了

模型学习

上面的 $U, V, W, w$ 包括RNN的参数 $\Theta_R$ 都是待学习的参数，损失函数由词的负对数损失和attention score的正则化项组成
在这里插入图片描述
为了保证权重对于每个属性的完备性和对于不同时间的稀疏性， $g$ 的定义如下

属性提取器

文章提出了两种提取属性的方法：非参数方法和参数方法。非参数方法基于的是最近邻算法，参数方法是预测使用深度神经网络预测属性标签。注意此处我们需要解决的问题是一个multi-label问题而不是一个multi-class的问题

非参数属性提取器

利用网上的大量弱标签图片，基于的假设是相似的图片更可能共享相似的标注，使用最近邻算法，用GoogleNet来度量图片间的距离，对于一个测试图片，搜索它的近邻然后计算每个词的TF来选择出现频率最高的词作为属性

参数属性提取器

从训练集中找出出现频率最高的一些词，将它们作为label供神经网络学习，本文使用了当时最先进的一些属性提取的方法：使用ranking loss作为损失函数来学习多标签分类，使用全卷积网络（FCN）

Experiments

Metric

BLEU
Meteor
Rough-L
CIDEr

datasets

Flickr30k
MS-COCO

缺点

输入属性信息的确可以帮助image caption的精度，但图像中较为次要的属性可能会导致输出的caption主次不分明，比如
在这里插入图片描述
第三行是ATT-FCN的结果，它将背景中的塔楼看的更加重要，而忽视了前景

结论

通过结合CNN编码图像以及图像属性这两个信息，通过attention机制传入到RNN中，本文做到了top-down和bottom-up的结合，对于一幅图像，模型不仅能理解其全局信息，也能理解其局部信息。

问题

权重中的正比例具体怎么算？
实际上是一个softmax normalization
3.3里面的公式是不是写错了

inspiration

为了丰富学习的信息，利用了弱监督学习对标签的一些处理方法

luputo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Image Captioning with Semantic Attention

Image Captioning with Semantic Attention原文地址inspiration当时的image caption的模式有两种top-down，将图片直接转化为词，优点是端到端，缺点是难以提取细节bottom-up，先用几个词描述图片的各个方面，然后将词组合到一起，优点是可以提取细节，缺点是没有端到端的formulation为了结合两者的优点，提出了一个...
复制链接

扫一扫

专栏目录