论文笔记：Auto-Encoding Scene Graphs for Image Captioning

刚学编程的小白( •̥́ ˍ •̀ू )

于 2022-08-25 18:55:52 发布

阅读量1.1k

点赞数 1

分类专栏：论文笔记文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/m0_56064238/article/details/126530582

版权

论文笔记专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Auto-Encoding Scene Graphs for Image Captioning

感觉这篇论文老多地方没读懂！😭

1、提出问题

当我们将一张包括未见过的场景的图片输入到网络中时，我们通常会得到一个关于一些显著对象的简单而琐碎的描述，如：“there is a dog on the floor”，这和目标检测得到的结果差不多。而人类在语句中使用 inductive bias 来构成搭配和语境推理，而传统的编码器-解码器模型做不到。

**language inductive bias：**比如从场景抽象出的 “helmet-on-human” 和 “road dirty” 中，我们可以用 “country road is dirty” 这样的常识性知识说出 “a man with a helmet in contryside” 。

2、创新点

在本文中，我们提出将语言生成的 inductive bias 纳入图像描述的编码器-解码器框架中。场景图(G)是通过有向边将图像(I)或句子(S)中的 (1) 对象（或实体）(2) 它们的属性和 (3) 它们的关系连接起来的统一表示。用空间图卷积网络(GCN)将图结构用矢量表示，从而送到编解码器中。

本文提出了 Scene Graph Auto-Encode(SGAE)，它是一个 S→G→D→S 的句子自重构网络，其中D是一个用于节点特征重新编码的可训练字典，S→G 模块使用的是一个固定的场景图语言解析器，D→S 是一个可训练的基于 RNN 的语言解码器。注意，D是我们从训练SGAE中提取的“juice”——language inductive bias。通过在编码器-解码器的训练管道中共享 D : I→G→D→S ，即可利用语言先验来指导端到端模型。特别地，I→G 模块是一个视觉场景图检测器，我们在 G→D 模块引入了一个多模态 GCN，以补充由于不完善的视觉检测而丢失的必要的视觉信息。

本文贡献：

提出了一种新的 Scene Graph Auto-Encoder (SGAE)用于学习 language inductive bias 的特征表示。
提出一种多模态图卷积网络，用于将场景图调制为视觉表示。
提出一种基于SGAE的编码器-解码器图像描述器，并具有指导语言解码的共享字典。

3、方法

在这里插入图片描述

图1：图示为将自动编码的场景图（蓝色箭头）用于的传统的编码器-解码器的图像描述框架中（红色箭头），其中 language inductive bias 被编码在可训练的共享字典中。单词的颜色对应于图像和句子的场景图中的节点。

在这里插入图片描述

图2：上面：传统的编码器-解码器；下面：我们提出的编码器-解码器，其中新颖的 SGAE 将 language inductive bias 嵌入到共享字典中。

3.1、Encoder-Decoder Revisited

给定图像 I，目标是生成描述图像的自然语言句子 S = {w₁,w₂, …, w_T }。最先进的编码器-解码器的模型可以表示为：

在这里插入图片描述

通常，编码器是提取图像特征 V 的卷积神经网络 CNN ；map 一般是注意力机制，它将视觉特征重新编码为信息量更大的 V^，对于语言生成来说是动态的；解码器是基于 RNN 的语言解码器，用来预测 S 序列。

给定 I 一个 ground truth caption S*，我们可以通过最小化交叉熵损失来训练模型：

在这里插入图片描述

或最大化基于强化学习 (RL) 的奖励：

在这里插入图片描述

其中 r 是采样句子 S^s 和真实值 S* 的句子级度量，例如 CIDEr-D 度量。

这几乎是目前最先进的图像描述基本架构，但是它存在 dataset bias ，为了解决这个问题，我们建议使用 language inductive bias，所提出的框架表述为：

在这里插入图片描述

我们只修改了 Map 模块，将场景图 G 引入由共享字典 D 参数化的重新编码器 R。

3.2、Auto-Encoding Scene Graphs

这一节中，我们将介绍如何通过自重构句子 S 来学习字典 D。

重构 S 的过程也是一个编码器-解码器管道。因此，我们可以将 SGAE 表述为：

在这里插入图片描述

3.2.1、Scene Graphs

这里我们介绍如何实现步骤 G← S，即从句子到场景图。

场景图是一个元组 G =(N, $\xi$ ) ，其中 N 和 $\xi$ 分别是节点和边的集合。 N中共有三种节点：object 节点 o 、attribute 节点 a 和 relationship 节点 r 。我们将 o_i 表示为第 i 个对象，r_ij 表示对象 o_i 和 o_j 之间的关系，a_i,l 表示第 l 个对象 oi 的属性。对于 N 中的每个节点，它由一个 d 维向量表示，即 e_o、e_a 和 e_r 。我们把 d 设置为1000。节点特征是可训练的 label embedding 。

$\xi$ 中边的形式有下面几种：

如果 object o_i 拥有attribute a_i,l ，则 a_i,l 到 o_i 有一条有向边；
如果出现一个关系三元组 < o_i - r_ij - o_j > ，则从 o_i 到 r_ij 和从 r_ij 到 o_j 有两条有向边。

图中显示了 G 的一个示例，它在 N 中包含 7 个节点，在 $\xi$ 中包含 6 个有向边。

在这里插入图片描述

图3：图卷积网络。它是空间卷积，其中彩色部分被“卷积”以作为结果嵌入。

我们使用场景图解析器（前人提出）从句子中提取场景图 G，然后构建句法依赖树（前人提出）应用基于规则的方法（前人提出）将树转换为场景图。

3.2.2、Graph Convolution Network

我们这里介绍步骤 X← G 的实现，即如何将原始节点的 embedding e_o、e_a 和 e_r 转换为一组新的上下文的 embedding X。

X 包含三种 d 维 embedding ：relationship 节点 r_ij 的 relationship embedding x_rij，object 节点 o_i 的 object embedding x_oi ，object 节点 o_i 的 attribute embedding x_ai。我们的d 设置为1000。我们使用四个空间图卷积：g_r、g_a、g_s 、g_o 来生成上述三种 embedding 。这四个函数都具有相同的结构和独立的参数：一个向量连接输入到一个全连接层，然后是一个 ReLU。

Relationship Embedding x_rij : 给定 G 中的一个关系三元组 <o_i − r_ij − o_j >，我们有：

在这里插入图片描述