Look Back and Predict Forward in Image Captioning

最新推荐文章于 2022-07-16 18:06:37 发布

luputo

最新推荐文章于 2022-07-16 18:06:37 发布

阅读量1.3k

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/92790524

版权

论文笔记专栏收录该内容

41 篇文章 3 订阅

订阅专栏

Look Back and Predict Forward in Image Captioning

原文地址

时间：2019 CVPR

Intro

一般的attention方法单纯地使用上一个词的隐层状态来进行attention加权来得到下一个隐层状态，这种attention机制忽略了相邻词的视觉相关性，比如"a blue bike"其实是三个词表示一个物体

exposure bias的问题

为了解决这两个问题，我们提出 Look Back and Predict Forward method(LBPF)，包括Look Back和Predict Forward两个部分

Method

首先，得到图片特征 $V=\{v_1,v_2,...,v_k\},v_i\in R^D$ ，使用它们的平均 $\bar{v}$ 作为全局信息，然后使用LBPF模型作为decoder，本文的模型是基于Bottom-Up and Top-Down Attention模型的，整个模型如图所示
在这里插入图片描述

Look Back Model

给定 $k$ 个空间特征向量 $V=\{v_1,...,v_k\}\in R^{D\times k}$ 以及当前的隐藏状态 $h_t\in R^d$ ，传统的注意力机制计算加权向量为
在这里插入图片描述
一般，加权向量最终和 $h_t$ 连接起来预测下一个词，然而attention的区域应当有视觉的连贯性，且能够为之后的time step提供信息，因此我们提出了Look Back方法，来将之前的attention考虑进来，如图所示

我们使用之前的attention和隐藏状态concat起来，来计算之后的
在这里插入图片描述
记 $H_t$ 为concat的结果，具体的，加权向量和attention向量计算为

我们仅仅使用了 $att_{t-1}$ 而没有让梯度往前传，因为这会使得模型过于复杂且难以收敛

Predict Forward Model

通常的序列生成方法中，当前的word embedding将被喂给RNN然后来生成下一个词，使得 $y_{t+1}$ 严重依赖于 $y_{t}$ ，在测试时可能导致错误的累积（exposure bias），因此我们提出了Predict Forward方法，来在一步中预测 $y_{t+1}$ 和 $y_{t+2}$ ，如图所示
在这里插入图片描述
记attention function为 $f_{att}$ ，LSTM2为 $F_2$ ，则

因为 $h^2_t$ 能直接预测 $y_{t+1}$ ，所以我们认为它是 $y_{t+1}$ 的一个特殊的embedding，从而能够预测下一个词，于是， $h_t^2$ 继续通过Att和LSTM2得到 $h^3_t$ ，

损失函数计算为
在这里插入图片描述
然后利用两者的和来计算最终预测的词

这样 $y_{t+1}$ 就不会严重依赖 $y_{t}$ ，从而减小累积错误