【TPAMI 2024】告诉俺娘，俺成功革新了图像字幕生成技术，可控长度与自适应级别研究......

最新推荐文章于 2024-09-26 16:58:09 发布

马拉AI

最新推荐文章于 2024-09-26 16:58:09 发布

阅读量837

点赞数 19

文章标签：计算机视觉

本文链接：https://blog.csdn.net/Mikasa33/article/details/142517215

版权

题目：Image Captioning With Controllable and Adaptive Length Levels

具有可控和自适应长度级别的图像字幕生成

作者：Ning Ding; Chaorui Deng; Mingkui Tan; Qing Du; Zhiwei Ge; Qi Wu

摘要

图像字幕生成是计算机视觉中的核心挑战，吸引了极大的关注。传统方法优先考虑字幕质量，常常忽视了风格控制。我们的研究增强了方法的可控性，能够生成细节各异的描述。通过将长度级别嵌入到当前模型中，它们能够生成详细或简洁的字幕，增加了多样性。我们引入了一个长度级别重排变压器来关联图像和文本的复杂性，优化字幕长度以实现信息丰富而不冗余。此外，随着字幕长度的增加，由于现有方法的自回归（AR）设计，计算复杂度会增加。为了解决这个问题，我们的非自回归（NAR）模型无论字幕长度如何都保持恒定的复杂度。我们开发了一种训练方法，包括细化序列训练和序列级知识蒸馏，以缩小NAR和AR模型之间的性能差距。在测试中，我们的模型在MSCOCO数据集上为字幕质量树立了新的标准，并提供了增强的可控性和多样性。我们的NAR模型在这些方面优于AR模型，并且在更长的字幕中显示出更高的效率。借助先进的训练技术，我们的NAR的字幕质量可与领先的AR模型相媲美。

摘要

长度可控图像字幕生成
非自回归图像字幕生成
长度级别重排
细化增强序列训练

I. 引言

图像字幕生成的任务是自动用自然语句描述给定图像，并且由于深度学习方法和开放数据集的显著进展而迅速发展。这是一个具有挑战性的任务，因为它需要全面理解图像内容以及强大的自然语言表达能力。它也是一个实际中的重要任务，并且有着广泛的应用，如图文检索、多模态推荐和人机交互等。在图像字幕生成的最先进的（SOTA）方法倾向于基于编码器-解码器框架，其中编码器从输入图像中提取特征，随后解码器基于编码器特征自回归地生成字幕，即每一步预测一个标记。基于此框架，已经在具有挑战性的MSC COCO数据集上取得了显著的性能，甚至在某些评估指标上超越了人类的表现。

尽管如此，这些SOTA方法中的大多数缺乏控制生成图像字幕风格的能力；更具体地说，选择在指定的详细程度上对图像进行字幕处理。如图1(a)所示，给定一个输入图像，尽管VLP（当前SOTA）生成的字幕正确描述了图像，但它未能捕捉到更多信息性的视觉概念，如“投手投球”和“穿着制服”，这也导致了有限的多样性。这激发了我们开发可控图像字幕生成模型的动力，这些模型可以根据要求生成粗略或详细的图像字幕。我们在本文中展示了通过直接控制生成图像字幕的长度，可以有效获得这种能力。

长度是自然语言的一个重要属性，因为它大致反映了句子所携带的信息量。在这项工作中，我们明确利用这一属性，并提出了一种长度可控的图像字幕生成方法，可以无缝地应用于现有的图像字幕生成模型。参见图1(a)中的例子，由我们的长度可控VLP生成的最长字幕（Ours Lv4）包含了对显著对象的详细描述，从而提高了视觉信息的保真度。而短字幕（Ours Lv1/Lv2）简要介绍了场景，但可以更高效地生成。此外，我们进一步设计了一个重排模块，能够根据图像的语义复杂性为每个图像找到最合适的详细程度。如图1(b)所示，当图像在语义上简单时，短字幕可能足以适当描述图像，而长字幕可能是繁琐的。相反，对于复杂的图像，长字幕可以更全面地捕捉视觉语义，而短的则不可避免地会丢失一些重要细节。

我们方法的核心是一个称为“长度级别”的概念，它指的是图像字幕的特定长度范围。具体来说，在训练期间，为每个级别训练一个长度级别嵌入，仅用长度范围内的训练数据进行训练。因此，模型能够捕获每个级别上字幕的语言模式，例如，较长的字幕倾向于涉及更多的视觉概念。在推理过程中，基于不同长度级别嵌入，模型被控制以在不同长度范围内生成图像字幕。通过这种方式，可以通过简单地引入额外的长度级别嵌入到输入中，将现有的图像字幕生成模型转变为长度可控的模型。之后，一个自然的扩展是在选择描述图像时选择适当的长度级别，以便图像字幕在不冗余的同时提供信息。我们通过提出一个长度级别重排变压器（LLRT）来实现这一点，它以图像以及所有长度级别生成的字幕作为输入，并预测最合适的长度级别。一个特殊的[LEVEL]标记被附加到LLRT的输入中，其最终隐藏状态被送入评分头以对字幕进行评分。

我们通过将它们应用于几种流行的图像字幕生成模型，包括教师强制训练（AoANet和VLP）和自我批评序列训练（SCST）方案下的M2 Transformer和XLAN，来展示我们的长度可控和长度级别重排方法的有效性。在实验中，我们的长度可控模型成功地生成了高质量和长度可控的结果。通过进一步重排所有长度级别的字幕，我们获得了比这些基线模型原始结果显著更高的top-1性能。然而，这些模型出现了一个新问题：由于它们采用自回归（AR）解码策略，每一步只生成一个标记，它们的解码复杂度随着字幕长度L的增长而线性增加（即Θ(L)复杂度）。这在偏好长字幕的场景中阻碍了模型效率，并且也阻碍了不同长度级别的图像字幕的并行生成。

为了解决这个问题，我们提出了一种非自回归（NAR）范式用于长度可控的图像字幕生成，称为LaNAR（长度感知非自回归）字幕生成。具体来说，所提出的LaNAR范式在固定数量的精炼步骤内解码图像字幕，而与L无关，这是一个与长度无关的复杂度。此外，LaNAR与基于变压器的架构兼容，因为它们有潜力并行处理整个输入序列。我们验证了LaNAR在两种架构上的性能，包括基于编码器-解码器的普通变压器和纯编码器基于BERT的架构。从实验中，所提出的LaNAR范式显著提高了长字幕的解码效率，同时在所有长度级别上与AR基线相比也取得了有竞争力甚至更好的性能。我们进一步为LaNAR范式设计了一个细化增强序列训练（REST）方案，显著提高了其性能，并在很大程度上超越了现有的NAR图像字幕生成模型。在应用REST和序列级知识蒸馏（SLKD）之后，我们的LaNAR字幕生成模型在解码速度更快的同时超越了它们的AR对应物。

我们的主要贡献总结如下：

我们首先引入了“长度级别”的设计作为一个控制信号来学习长度感知的图像字幕生成模型，它可以轻松集成到现有的图像字幕生成方法中，使它们能够生成高质量、长度可控和多样化的图像字幕。
我们设计了LaNAR，一种用于长度可控图像字幕生成的NAR范式，它使得长字幕的解码更加高效，同时与AR基线相比也实现了更高的控制精度，并产生了更多样化的结果。
我们提出了学习一个长度级别重排变压器来找出描述给定图像时最合适的长度级别。
我们在各种类型的图像字幕生成模型和设置上进行了广泛的实验，展示了我们提出的方法的有效性。

这项工作的初步版本已在ECCV2020上发表。这项工作是我们之前论文的系统扩展，具体如下：

我们设计了一个长度级别重排变压器，能够根据其语义复杂性在适当的长度级别内对图像进行字幕处理。
我们设计了REST方案，并采用了SLKD技术来训练LaNAR字幕生成模型，这弥合了NAR模型和AR模型之间的差距，大幅度提高了LaNAR字幕生成模型的性能。
提供了更多的实验结果，包括所提出的长度可控范式在更多基线模型上的性能，LLRT在长度可控AR和NAR模型上的结果，长度可控AR模型在SCST下的结果，以及REST和SLKD在NAR模型上的结果，以及更多的性能讨论。

III. 方法

A. 预备知识

给定一个图像 $I$ ，图像字幕生成的目标是为 $I$ 生成一个自然句子描述 $\{s_i\}^L_{i=1}$ 。这里， $s_i$ 是 $S$ 中的一个标记， $L$ 是 $S$ 的长度。现有的方法大多是自回归的，它们将 $S$ 的分布因式分解为具有从左到右因果结构的条件概率链： $\prod_{i=1}^{L} p(s_i | s_{j < i}, I)$ 。因此，只有在所有前面的标记 $s_{j < i}$ 可用时，才能生成标记 $s_i$ 。假设目标图像字幕为 $S^* = \{s^*_i\}^{L^*}_{i=1}$ 。

自回归模型的训练通常遵循“教师强制”方案，旨在最小化给定所有前面的正确标记 $s^*_{j < i}$ 下的真实标记 $s^*_i$ 的负对数似然： $\min_{L^*} \sum_{i=1}^{L^*} -\log p(s^*_i | s^*_{j < i}, I)$ 。除了教师强制，序列级优化方案 SCST 提出在 [8] 中，它旨在最大化预测图像字幕的预期奖励： $\max_{S \sim \pi} [r(\tilde{S})]$ ，其中 $\pi$ 表示由图像字幕生成模型建模的输出分布，奖励函数 $r(\cdot)$ 定义为随机采样的 $\tilde{S}$ 和它们的贪婪采样对应物 $\hat{S}$ 的 CIDEr 得分的差值，即自我批评奖励： $r(\tilde{S}) = \text{CIDEr}(\tilde{S}) - \text{CIDEr}(\hat{S})$ 。在像 MSCOCO 这样的数据集中，每个训练图像通常有 5 个配对的真实字幕，生成的字幕的 CIDEr 得分是针对所有这些字幕计算的。

在推理过程中，自回归模型首先取一个特殊的 [BOS] 标记作为输入，并预测一个接一个的句子，直到达到一个特殊的 [EOS] 标记。

B. 自回归图像字幕中的获取长度信息

为了明确地模拟图像字幕 $S$ 的长度属性，我们将 $\{s_i\}^L_{i=1}$ 分配到一个特定的长度级别 $k$ ，根据其长度 $L$ ，它有一个长度范围 $[L_{\text{low}}^k, L_{\text{high}}^k]$ 。每个长度级别都与一个长度级别嵌入 $e_l(k) \in \mathbb{R}^d$ 相关联，以区分不同长度级别的图像字幕。然后，对于 $S$ 中的每个标记 $s_i$ ，我们通过以下方式构建其输入嵌入： $x_{s_i} = e_l(k) + e_w(s_i) + e_p(i)$ ，其中 $e_w(s_i) \in \mathbb{R}^d$ 是 $s_i$ 的词嵌入， $e_p(i) \in \mathbb{R}^d$ 是可选的位置嵌入，用于基于 Transformer 的解码器。有了这个长度级别嵌入 $e_l(k)$ ， $S$ 的长度信息就被明确地纳入到 $x_{s_i}$ 中。通过这种方式，现有的图像字幕生成模型可以通过简单地将它们原来的标记嵌入（例如，词嵌入）替换为我们的长度感知标记嵌入，而无需对它们的网络架构进行任何其他修改，从而转变为长度感知模型。

长度感知自回归图像字幕生成模型的训练可以直接遵循教师强制或 SCST 方案。在训练期间，长度级别嵌入的级别 $k$ 将仅用特定长度范围内的字幕进行训练。对于教师强制，唯一的区别是要根据长度级别将训练集分开；同样，对于 SCST，生成的字幕的 CIDEr 得分将仅与同一长度级别的参考字幕一起计算。通过这种方式，不同长度级别的图像字幕的“特征”被分别建模，例如，长字幕通常涉及图像中的更多视觉概念，从而实现了长度感知的视觉-语言建模。注意，每个图像仅在至少有一个参考字幕的长度级别上进行训练。在推理过程中，所需的长度级别嵌入作为控制信号输入模型，通过 (4)。

由于所提出的长度可控方法的简单性，它可以轻松实现在现有的自回归图像字幕生成方法上。为了展示其强大的泛化能力，我们首先考虑两个代表性的基线模型，即基于 LSTM 的 AoANet 和基于 Transformer 的 VLP，并使用教师强制方案训练这些模型；此外，我们还进一步研究了另外两个模型，即 M2 Transformer 和 X-LAN，在自我批评训练方案下。作为一个例子，我们在图 2(a) 中说明了长度可控的 VLP。在设置长度级别的边界 $[L_{\text{low}}^k, L_{\text{high}}^k]$ 时，我们遵循两个简单的原则：1) 应该有足够的训练数据每个长度级别，以便充分训练长度级别嵌入；2) 一个长度级别的范围不应太窄，以确保生成的字幕的灵活性。在检查了 MSCOCO 数据集中字幕长度分布之后（见图 5），我们在实验中探索了两种长度级别划分计划，分别包含 4 或 5 个长度级别。4 级计划将图像字幕分为 4 个块，长度在范围 [1,9]、[10,14]、[15,19] 和 [20,25] 内，从粗略到详细。而 5 级计划提供了更细粒度的划分，分别是 [1,9]、[10,13]、[14,17]、[18,21] 和 [22,25]。

C. 自适应长度级别重排

到目前为止，我们已经介绍了我们的长度可控图像字幕生成方法，它需要一个“长度级别”控制信号来决定生成字幕的长度范围。然而，如图 1(b) 所示，对于语义简单的图像，简短的句子通常足以涵盖所有细节，而长句子可能是繁琐和不必要的，而对于复杂的图像，短句子可能只能从粗略的全局视角描述图像，并未能捕捉到图像的独特部分。因此，直观地捕捉图像模态和文本模态的语义复杂性之间的相关性，并自适应地为图像选择最合适的长度级别是有意义的。虽然已经有多种参考无关的自动图像字幕评估指标可以用来对图像字幕进行排名，如 CLIPScore、VIFIDEL 和 UMIC。然而，它们侧重于生成字幕和图像之间的语义对齐，可能无法捕捉到语义复杂性的微妙差异。更重要的是，图像的语义复杂性的测量仍然是一个开放性问题。

为了解决这个问题，我们从 [49] 中获得灵感，该研究表明，一个事物的复杂性与人类描述它的难度相关。因此，可以通过基于人类提供的参考的评估指标对相应的字幕进行排名来确定图像最合适的长度级别。为此，我们学习了一个长度级别重排变压器（LLRT）模块，通过 CIDEr 优化。如图 2(b) 所示，LLRT 采用了联合视觉-语言变压器架构，它以图像 $I$ 、长度级别 $k$ 的生成字幕（记为 $S_k$ ）以及一个特殊的 [LEVEL] 标记为输入。基于 [LEVEL] 标记的最终隐藏状态，记为 $h_l(k) \in \mathbb{R}^d$ ，我们然后通过评分头预测 $S_k$ 和 $I$ 之间的置信度分数，并选择得分最高的 $S_k$ 作为 $I$ 的最终预测。注意，由于原始 VLP 模型已经是一个联合视觉-语言变压器，我们可以直接重用 VLP 的主干，并在其顶部附加评分头。

具体来说，我们将最优长度级别的选择公式化为一个强化学习问题。给定所有长度级别生成的图像字幕 $\{S_k\}^K_{k=1}$ （ $K$ 是长度级别的数量），我们首先通过 LLRT 主干获得它们的 [LEVEL] 表示 $H_l = \{h_l(k)\}^K_{k=1}$ ，然后计算每个 $S_k$ 和人类提供的参考字幕之间的 CIDEr 得分，记为 $\text{CIDEr}(S_k)$ 。以 $\text{CIDEr}(S_k)$ 作为奖励，我们的学习目标是最小化负预期奖励： $L_r = -\mathbb{E}_{k \sim \pi_{\theta}(H_l)}[\text{CIDEr}(S_k)]$ ，其中 $\pi_{\theta}(\cdot)$ 是一个两层多层感知机，参数为 $\theta$ ，它将 $H_l$ 作为输入并输出 $S_k$ 和 $I$ 之间的置信度分数。之后，采用 Softmax 函数基于所有长度级别的置信度分数计算分类长度级别分布。模型可以通过策略梯度进行优化，如下： $\nabla_{\theta}L_r = -\text{CIDEr}(S_k)\nabla \log \pi_{\theta}(H_l)$ 。当训练 LLRT 时，我们可以从训练有素的长度可控 VLP 模型开始，并在保持长度可控 VLP 的原始参数固定的情况下，仅训练评分 MLP 头部对其进行微调。在微调期间，除了新增加的 [LEVEL] 标记外，标记嵌入也是固定的。[LEVEL] 标记嵌入从长度可控 VLP 中的原始 [CLS] 标记嵌入初始化。在推理过程中，重排过程只需要 LLRT 模型的一个前向传递，与字幕解码过程相比非常高效。

D. 非自回归长度可控图像字幕生成

自回归图像字幕生成模型由于解码复杂度随着字幕长度 $L$ 的增长而线性增加，通常会导致效率低下。为了解决这个问题，我们提出了一个名为 LaNAR 的非自回归长度可控图像字幕生成范式，适用于基于变压器的图像字幕模型。以 BERT 模型为例，LaNARBERT 的架构如图 3 所示。按照 [6]、[17] 的方法，输入图像 $I$ 首先通过预训练的对象检测器处理成 $M$ 个对象提议 $\{r_i\}^M_{i=1}$ 。这些提议由它们的区域特征 $F_e = \{f_e(i)\}^M_{i=1}$ 、分类概率 $F_c = \{f_c(i)\}^M_{i=1}$ 和定位特征 $F_p = \{f_p(i)\}^M_{i=1}$ 表示。与 [6] 中类似，每个提议 $r_i$ 的最终输入表示构造如下： $x_{r_i} = W^T_e f_e(i) + W^T_p [\text{LN}(f_c(i)), \text{LN}(f_p(i))] + e_{\text{img}}$ 。 $[\cdot, \cdot]$ 表示连接操作，LN 代表层归一化 [51]。 $W_e$ 和 $W_p$ 是两个可学习的投影矩阵，将相应特征投影到 $d$ -D 视觉嵌入和位置嵌入中。 $e_{\text{img}} \in \mathbb{R}^d$ 是一个可学习的嵌入，用于区分图像区域和文本标记，它在 BERT 中的作用类似于段落嵌入。我们也对纯编码器-解码器变压器 [11] 应用了 LaNAR 范式。它是一个基于编码器-解码器的架构，其中编码器用于处理图像特征，处理过程与 (7) 中类似（除了移除 $e_{\text{img}}$ ），并对解码器部分进行类似 (4) 的修改。我们将这个模型称为 LaNAR-Transformer。

训练：LaNAR 字幕生成模型的训练遵循条件掩蔽语言建模 [39] 的基本思想，但我们对其进行了修改，以利用我们的长度级别设计，并摆脱通常使用的额外长度预测器。给定目标图像字幕 $S^*$ 在长度级别 $[L_{\text{low}}, L_{\text{high}}]$ 内，我们首先用 [EOS] 标记将其填充到最长长度 $L_{\text{high}}$ 。然后，我们随机选择 $\in [1,L_{\text{high}}]$ 个位置，并将它们替换为 [MASK] 标记。将获得的序列记为 $S_m$ ，LaNAR 字幕生成模型试图预测所有掩蔽位置的原始标记，仅依赖于图像区域表示（由 (7) 获得）和 $S_m$ 中未掩蔽的长度感知标记嵌入（由 (4) 获得）。因此，预测的条件概率是相互独立的，允许它们在推理时并行计算。我们通过最小化所有掩蔽位置上的交叉熵损失来训练 LaNAR 字幕生成模型： $L_c = \sum_{i=1}^{L_{\text{high}}} -1(s_i = [\text{MASK}]) \cdot \Omega(s^*_i) \cdot \log p(s_i = s^*_i)$ 。这里， $1(\cdot)$ 是一个指示函数，如果 $s_i = [\text{MASK}]$ 则输出 1，否则输出 0。为了便于模型生成更长的字幕，我们在 (8) 中采用了一个术语 $\Omega(s^*_i)$ ，当 $s^*_i$ 是 [EOS] 时输出 $\omega$ （ $\omega < 1$ ），否则输出 1，这样 [EOS] 标记的梯度被缩小，使模型不太可能预测 [EOS] 标记。

通过用 [EOS] 标记将 $S^*$ 填充到 $L_{\text{high}}$ ，所提出的 LaNAR 范式被训练为在 [ $L_{\text{low}}$ , $L_{\text{high}}$ ] 内自动找到一个合适的结束位置，因为此长度级别下的所有训练样本只包含 [ $L_{\text{low}}$ , $L_{\text{high}}$ ] 内的 [EOS] 标记。由于这种设计，LaNAR 字幕生成模型不需要像大多数非自回归文本生成方法那样在解码开始时学习额外的长度预测器，但与我们的长度可控自回归基线相比，也显示出更好的可控性（第 IV-H 节）。

推理：我们基于迭代细化的思想执行并行图像字幕解码，其中在每一步 $t$ ，一个掩蔽的图像字幕 $S^{m}_{t-1}$ （从前一步获得）被送入模型以预测掩蔽位置的标记。具体来说，LaNAR 字幕生成模型预测 $S^{m}_{t-1}$ 中所有位置的标记分布，记为 $p_t$ 。然后，我们使用贪婪采样预测的标记更新 $S^{m}_{t-1}$ 中所有掩蔽位置 $s_i \leftarrow \arg \max_{s} p_t(s = s_i), \forall i \in \{i | s_i = [\text{MASK}]\}$ 。将更新后的字幕记为 $S^t$ 。为了鼓励模型预测更长的字幕，贪婪采样之前，我们通过因子 $\gamma$ 指数衰减 [EOS] 标记的概率，对于 $L_{\text{low}}$ 之后的位置 $p_t(s_i = [\text{EOS}]) \leftarrow \gamma^{L_{\text{high}}-i} p_t(s_i = [\text{EOS}]), \forall i \in [L_{\text{low}}, L_{\text{high}}]$ 。同时，基于 $p_t$ ，我们还为每个标记 $s_i$ 获得一个置信度分数 $c_{t,i}$ $c_{t,i} \leftarrow \begin{cases} \max_{s} p_t(s = s_i), & \text{if } i \text{ is a masked position} \\ (1 - \alpha) \cdot c_{t-1,i} + \alpha \cdot \max_{s} p_t(s = s_i), & \text{otherwise} \end{cases}$ 然后，我们找到具有最低 $n$ 个置信度分数的标记，并掩蔽相应位置，得到 $S^m_t$ ，这将再次被送入 LaNAR 字幕生成模型进行下一步细化。这里， $\alpha$ 是一个超参数，控制未掩蔽位置的置信度分数的进展速度。让 $T$ 为总细化步骤数， $\cdot \frac{L_{\text{high}}}{T}$ 为掩蔽位置的数量，将随着 $t$ 的增加线性衰减至 0。初始图像字幕 $S^m_0$ 设置为 $\{s_i = [\text{MASK}]\}^{L_{\text{high}}}_{i=1}$ 。

通过迭代细化，解码复杂度从自回归方法中的 $\Theta(L_{\text{high}})$ 降低到 LaNAR 模型中的 $\Theta(T)$ 。此外，LaNAR 模型在早期步骤中犯的错误可能在未来步骤中得到修正，这在自回归方法中是不可行的。注意，(11) 中的更新规则与 [39] 中的更新规则不同，后者只更新掩蔽位置的置信度分数。在实践中，我们发现我们的（记为全局更新规则）在字幕质量方面表现要好得多。此外，我们的 LaNAR 范式还允许在细化过程中动态改变长度，而不需要任何额外的插入/删除模块，如 [40] 中那样。

E. 自我批评训练用于迭代细化

序列级优化，如 SCST，已被证明可以显著提高自回归模型的性能。然而，直接将 SCST 应用于 LaNAR 范式并非易事，因为它是非自回归解码行为。为了解决这个问题，我们为 LaNAR 设计了一个细化增强序列训练方案，记为 REST。具体来说，在每个细化步骤 $T$ ，给定前一步获得的掩蔽字幕 $S^{m}_{t-1}$ ，我们通过 LaNAR 字幕生成模型的一次前向传递获得两个新字幕，即 $\tilde{S}_t$ ，其中每个掩蔽位置在 $S^{m}_{t-1}$ 中的更新标记是从 $p_t$ 中随机采样的，以及 $\hat{S}_t$ ，其中标记是贪婪采样的。然后，我们遵循 SCST 来最大化更新句子的预期奖励，如 (2) 中所述，其中奖励函数定义为： $r(\tilde{S}_t) = (\text{CIDEr}(\tilde{S}_t) - \text{CIDEr}(\hat{S}_t)) + (\text{CIDEr}(\tilde{S}_t) - \text{CIDEr}(\tilde{S}_{t-1}))$ 。第一项是从原始 SCST 继承的，我们计算随机采样的 $\tilde{S}_t$ 相对于其贪婪采样对应物 $\hat{S}_t$ 的优势；第二项是我们的细化增强奖励，考虑 $\tilde{S}_t$ 相对于前一步骤生成的字幕的优势。这鼓励模型在每个细化步骤后产生更好的字幕。

在 REST 过程中，LaNAR 字幕生成模型以图像和随机采样的参考字幕的长度级别索引 $k$ 作为输入。基于 $k$ ，一个掩蔽序列 $S_0$ 初始化为长度 $L^k_{\text{high}}$ ，并且 CIDEr 得分仅与同一长度级别的参考字幕一起计算，与长度可控自回归模型的自我批评训练类似。我们在 REST 中对每个句子细化 10 次，其中每个步骤恢复 10% 的掩蔽标记。由于 $S_0$ 是一个 [MASK] 标记序列，所以提出的 REST 不用于第一步细化。

F. 序列级知识蒸馏

非自回归文本生成模型通常与自回归模型相比性能下降，因为标记是（半）独立生成的，因此它们的序列依赖性没有像自回归模型那样被很好地捕获。这个问题的主要原因是训练数据的“多模态性”，即一个源图像可以以多种方式进行字幕处理。如 [38]、[52] 所示，序列级知识蒸馏（SLKD）是减少训练语料库模式数量和缓解多模态问题的有效策略。本质上，这些方法使用 AR 教师模型预测的句子来构建一个新的数据集来指导 NAR 学生模型的训练过程。新数据集提供了较少噪声和更确定性的图像字幕，使 NAR 学生模型更容易学习。

在我们可控长度的非自回归图像字幕生成的情况下，应用 SLKD 的最简单方法是使用现有的 AR 图像字幕生成模型作为教师，生成一个新的和模式减少的训练集。然而，每个长度级别的字幕通常具有特定的模式，而现有的 AR 模型只能产生集中在主要长度级别的数据（见图 8(b)），这在我们的设置中是不适当的。因此，我们提出使用一个长度可控的 AR 模型，即长度可控的 VLP 作为教师。具体来说，我们采用教师模型为每个训练图像生成多个不同长度级别的字幕，然后根据原始训练集的长度分布随机采样生成的字幕。我们在实验中展示（表 IV），保持原始训练集的长度分布对于良好性能很重要。此外，由于抽样过程大大减少了新训练数据的数量，我们将抽样数据与原始训练数据合并作为新的训练集，这与 [38]、[52] 不同，他们仅使用新生成的数据进行 SLKD。

IV. 实验

A. 数据集和评估指标

为了评估我们方法的有效性，我们在流行的MSCOCO数据集上进行了实验，该数据集包含123,287张图像，每张图像至少有5个配对的真实字幕。我们遵循[54]中的数据分割设置，其中113,287、5,000和5,000张图像分别用于训练、验证和测试。我们进一步分析了MSCOCO训练集中图像字幕的长度分布，如图5所示。数据收集的最小字幕长度为8，导致长度分布不均匀。

为了评估生成字幕的质量，我们使用了以下标准指标：BLEU [55]、ROUGE [56]、METEOR [57]、CIDEr [18]和SPICE [58]。除了SPICE，所有这些指标都通过考虑n-gram相似度来计算参考和候选图像字幕之间的相似度。另一方面，SPICE基于场景图同义词匹配，通过编码对象、属性和关系来表示图像。根据[58]、[59]，SPICE和METEOR在所有这些指标中与人类对字幕质量的判断相关性最高。此外，由于测试分割中的大多数真实图像字幕都很短，当评估长候选字幕时，基于n-gram的指标的性能可能会受到负面影响（例如，CIDEr包含长度惩罚项）。幸运的是，SPICE对候选字幕的长度是鲁棒的，因此它应该是评估长字幕的优先指标。

为了评估生成字幕的多样性，我们为每个模型采样相同数量的图像字幕，并使用Div-1、Div-2和Self-CIDEr [60]进行评估。Div-1/2计算生成字幕中不同单/双gram与字幕集中总单词数的比率。Self-CIDEr [60]是最近提出的一种关注语义多样性的指标。这些值越高，字幕就越多样化。

B. 实施细节

对于AoANet、VLP、M2 Transformer、X-LAN及其长度可控变体，我们采用了它们的官方代码和设置进行训练、推理和评估。对于LaNAR模型，我们考虑了两个变体：1）LaNAR-BERT，这是一个具有12层、12个注意力头和768隐藏大小的类似BERT模型。我们从预训练的BERT-base [12]模型初始化它。2）LaNAR-Transformer，这是一个基于编码器-解码器的变压器模型，具有6层编码器和3层解码器。隐藏大小和注意力头分别设置为512和8。我们将每个输入图像表示为通过在Visual Genome [62]数据集上预训练的Faster RCNN [61]提取的100个对象提议。我们采用Faster RCNN的fc6层（2048-D）的中间结果作为区域特征 $F_e$ 。分类标签 $F_c$ 包含1,600个对象类别，从Faster RCNN的最终softmax层获得。每个提议的定位特征是一个5元组，包含提议的左上角和右下角的归一化坐标以及其相对于整个图像的相对面积。

我们训练所有LaNAR模型40个周期，批量大小为256，使用AdamW [63]优化器，权重衰减为1e-2。学习率在前1,000次迭代中从0线性预热到5e-5，然后在剩余迭代中进行余弦衰减至0。我们使用标签平滑0.1，梯度裁剪阈值为1.0。当在LaNAR模型上应用REST方案时，我们从交叉熵训练的模型初始化它们，并进一步微调25个周期，批量大小为64，学习率为2e-5。当使用SLKD对LaNAR模型进行训练时，我们使用预训练的4级VLP模型作为教师，通过束搜索生成每个训练图像的5个字幕，从而为每个图像生成20个生成字幕。然后，我们根据原始训练集的长度级别分布随机抽样一个生成的数据集，其训练样本数量与原始数据集相同。我们将生成的数据与原始数据以1:1的比例合并为新的训练集。

C. 自回归模型上的性能

我们在表I和表II中展示了我们的长度可控自回归模型的性能。从表I中可以看出，在MSCOCO中参考字幕主要分布的长度范围[10,14]内，我们的4级和5级长度可控VLP [6]和AoANet [4]均实现了与原始结果相当或更好的性能。我们的4级VLP甚至在CIDEr得分上比原始VLP高出1.8%。这表明我们的长度可控模型可以在正常长度范围内保持甚至提高原始模型的性能。在更长的长度范围内，我们发现基于n-gram的指标如CIDEr严重下降。然而，正如我们在第IV-A节中讨论的，这并不意味着在这些级别上生成的字幕质量差。从图1中的例子可以看出，4级VLP在所有长度级别上都生成了高质量的图像字幕。具体来说，在最短级别上，图像从全局视角被简洁地描述，忽略了许多重要细节，而在最长级别上，4级VLP涵盖了图像中的所有细粒度视觉概念，如“投手投球”、“击球手站在本垒板前”和“捕手准备接球”，有些甚至在参考字幕中被遗漏。这在图9中的更多可视化结果中也得到了支持。此外，我们的模型通常在较长长度级别上实现了显著的SPICE得分，即5级AoANet在级别4和级别5上分别实现了23.0和22.9的SPICE得分，比原始结果高出1.6%以上。

在表II中，我们研究了三种长度可控自回归模型在SCST优化下的性能，包括普通变压器[11]、M2变压器[9]和X-LAN[10]。从表中，我们得到了与上述相似的观察结果，即长度可控模型在主要分布的长度级别上实现了SOTA性能，并在较长长度级别上显著提高了SPICE得分。这些结果证明了所提出的长度级别嵌入在现有自回归图像字幕生成模型中的显著性能和泛化能力，无论是使用基于LSTM的解码器还是基于变压器的解码器，无论是使用教师强制方案还是SCST方案。

D. LaNAR模型的性能

在这里，我们评估了我们提出的LaNAR字幕生成范式的性能。4级模型的细化步骤数设置为10、15、20和25，以便我们在大致相同的解码复杂度下将LaNAR模型与自回归模型进行比较。从表中可以看出，我们的LaNAR模型优于先前的非自回归字幕模型，如MIR [43]和CMAL [44]。我们还实现了LaNAR模型的单级版本，其中长度范围设置为[1,25]，解码步骤数设置为25。结果显示在表III中。与单级LaNAR模型相比，4级LaNAR模型在所有指标上在级别2上都取得了明显更好的性能，并在级别3和级别4上显著提高了SPICE得分，这与第IV-C节中的观察结果一致。此外，当采用SLKD和提出的REST方案进行训练时，LaNAR模型实现了与表II中的自回归基线相当的性能。这些结果证明了我们的长度可控方法在非自回归图像字幕模型中的有效性。

我们进一步评估了LaNAR模型的速度优势，其中我们改变了LaNAR-BERT模型在第四长度级别上生成字幕的解码步骤数T，从10到25不等。如图6所示，我们的LaNAR-BERT可以使用较小的T=20实现与4级VLP相当的结果。我们可以通过将T设置为12来获得进一步的速度提升（2.1×），在SPICE上只牺牲了0.3%。我们还评估了LaNAR-BERT的运行时速度。在一块NVIDIA RTX 3090 GPU上，LaNAR-BERT的一个前向传递需要2.9毫秒。当对所有长度级别使用10个细化步骤时，LaNAR-BERT分别需要32毫秒、36毫秒、41毫秒和43毫秒来生成一个字幕，对于长度级别1到4。另一方面，具有类似网络架构的4级VLP模型需要77毫秒来生成一个25个标记的字幕，比LaNAR-BERT长1.8×。然而，LaNAR-BERT在10个细化步骤下获得的性能仍然与4级VLP的性能相当，这验证了LaNAR-BERT在高效图像字幕解码方面的能力。

E. LaNAR模型的性能分析

1）REST的消融研究：在表IV中，我们提供了关于提出的REST方案的一些消融研究结果。从结果中可以看出，REST方案显著提高了LaNAR-BERT的性能，使其在CIDEr优化设置下与SOTA方法相当。我们还展示了REST奖励函数中不同组件的重要性，即自我批评（SC）项和细化增强（RE）项。从表中可以看出，在(12)中移除SC项或RE项后，LaNAR-BERT的CIDEr得分分别下降了2.7%和4.0%，表明这两个项在我们的REST方案中都起着关键作用。

2）SLKD的讨论：为了分析SLKD中合并数据集中生成数据比例的效果，我们逐渐将生成数据的比例从0.0增加到1.0。我们在新数据集上训练我们的LaNAR-BERT模型，并在图7中展示了结果。从图中可以看出，LaNAR-BERT的性能通常随着生成数据比例的增加而增加。当比例高于0.5时，可能会观察到饱和。将生成数据的默认比例设置为0.5，我们评估了我们对序列级知识蒸馏（SLKD）的修改对LaNAR-BERT的效果。结果显示在表IV中。从结果中可以看出，原始SLKD降低了LaNAR-BERT的性能。通过根据原始数据集的长度级别分布对生成的字幕数据进行随机抽样，并在训练过程中将原始和生成的数据合并在一起，我们在LaNAR-BERT上获得了明显的性能提升，其中级别2的CIDEr得分提高了3.0%。此外，与表I中的结果相比，采用SLKD的LaNAR-BERT在所有指标上也优于自回归模型（4级AoANet和4级VLP）。这些结果验证了我们对SLKD训练方案的修改的有效性。

3）超参数分析：我们分析了几个关键超参数在LaNAR-BERT中的效果，包括(10)中的[EOS]衰减因子 $\gamma$ ，在(8)中的平衡权重 $\omega$ ，以及(11)中的全局更新因子 $\alpha$ 。默认情况下，我们将 $\alpha$ 设置为0.8， $\gamma$ 设置为0.8， $\omega$ 设置为0.5，LaNAR-BERT在正常训练设置（无SLKD & REST）下实现了最佳性能。然后，我们改变了其中一个超参数的值，同时保持其他两个固定。如表IV所示，关闭全局更新规则后，即 $\alpha=0$ ，LaNAR-BERT在第二级别上的CIDEr得分下降了1.8%。移除[EOS]衰减（ $\gamma=1$ ）也使性能下降了2.4%。此外，选择合适的平衡权重 $\omega$ 也很重要，当我们将其从1.0降低到0.5时，获得了0.6%的增益。

F. LLRT的性能

在本节中，我们评估了所提出的长度级别重排变压器（LLRT）在4级VLP、4级AoANet和4级LaNAR-BERT上的性能。具体来说，我们首先获得了它们的预言性能，对于每个图像，我们计算了在每个长度级别上生成的字幕的评估分数，并采用最高分数来计算整个数据集的性能。如表V所示，我们的长度可控模型在预言评估下都实现了强大的性能，显示了在不同长度级别上生成的字幕之间的良好互补性。此外，我们展示了通过所提出的LLRT重排的长度可控模型的性能。与表I和表III中的结果相比，4级VLP、4级AoANet和4级LaNAR-BERT的自适应重排性能在所有级别和指标上都优于它们在自适应重排之前的结果，并且也显著优于原始VLP和AoANet的结果。这证明了所提出的LLRT的有效性。然而，预言性能和自适应重排性能之间仍然存在很大差距。

此外，我们展示了LLRT模型几种其他设计选择的性能，包括1）使用图像参考字幕中最常见的长度级别作为其真实长度级别，并训练一个变压器模型通过交叉熵损失直接从图像特征预测长度级别；2）与第一种选择类似，但是采用图像参考字幕的平均长度来确定其真实长度级别；3）训练LLRT模型直接回归字幕的CIDEr得分；4）随机初始化LLRT模型，而不是使用预训练的长度可控VLP或LaNAR-BERT的权重；5）使用无参考指标，即CLIPScore [46]，进行长度级别重排。

从表中可以看出，直接从图像预测最合适的长度级别，如前两个选项，导致了较差的性能。这可能是由于两个原因。首先，最常见的或平均长度级别可能是一个糟糕的指标，表明图像最合适的长度级别。其次，图像和语言描述之间的隐含关系不能简单地从图像中推断出来。此外，CIDEr回归也明显降低了LLRT的性能，我们假设独立于生成的字幕精确估计CIDEr得分是困难的。另一方面，所提出的LLRT通过评分头联合估计所有长度级别字幕的相对质量，从而实现了更好的性能。此外，LLRT在所有长度级别的分数上应用Softmax函数，这在训练过程中引入了竞争，因此可能对排名目的有益。我们还发现权重初始化对LLRT的训练是有益的，从头开始训练LLRT会使性能略有下降。最后，使用CLIPScore导致的性能远低于使用所提出的LLRT。这个结果表明，所提出的LLRT能够通过在训练期间使用基于参考的优化来模仿人类对图像语义复杂性的判断。然而，无参考指标（如CLIPScore [46]、UMIC [48]和VIFIDEL [47]）可能无法提供这种指导，因此可能无法为图像找到合适的长度级别。

G. 与最先进技术的比较

最近的SOTA图像字幕生成模型在MSCOCO数据集上通过大规模视觉-语言预训练或强大的视觉背景，如在ImageNet22k [79]上预训练的Swin Transformer [78]，实现了显著的性能。为了更好地展示我们方法的有效性，在表VI中，我们在不同设置下提供了更详细的比较。

我们首先展示了使用强大视觉背景的LaNAR-BERT的性能，即Swin-Transformer Large (Swin-L)和CLIP Vision Transformer Large (CLIP-ViT-Large)。从表中可以看出，LaNAR-BERT在与相同背景相同的SOTA基线相比具有竞争力的性能，同时享受长度可控和非自回归解码。此外，在标准设置中，即不使用大规模视觉-语言预训练或强大的视觉背景，LaNAR-BERT w/ REST & SLKD & LLRT模型实现了比现有最先进模型更好的性能，这证明了我们提出的方法的有效性。

我们还在Conceptual Captions [80]上进行了实验，这是一个更具有挑战性的大型数据集，具有极其多样的语义和字幕长度的大变化。我们根据长度分布将Conceptual Captions中的字幕分为6个级别：[1,8]、[9,12]、[13,16]、[17,20]、[21,28]和[29,44]。然后，我们训练了一个长度可控的LaNAR-BERT，采用这种新的划分策略，遵循VLP [6]在Conceptual Captions上的训练和评估设置，结果如表VII所示。从表中可以看出，LaNAR-BERT在Conceptual Captions上成功地控制了所有6个级别的字幕长度。此外，在短级别（级别1到级别3）上，LaNAR-BERT在CIDEr、SPICE和METEOR方面的性能与VLP相当；而在较长的长度级别上，LaNAR-BERT在SPICE方面表现更优。这些结果与我们在MSCOCO数据集上的观察一致，表明我们的LaNAR范式可以应用于更具挑战性的数据集。

H. 控制性和多样性分析

在本节中，我们进一步分析了长度级别嵌入的“控制精度”，即给定长度级别嵌入时，生成图像字幕在所需长度范围内的概率。我们计算了4级AoANet、VLP和LaNAR-BERT的控制精度，并在图8(a)中展示了结果。如图所示，所有方法都能准确地控制生成的图像字幕的长度，我们的非自回归模型LaNAR-BERT在所有级别上都获得了最佳的控制精度（超过95%）。这一结果验证了所提出的长度级别嵌入在生成长度可控图像字幕中的有效性。此外，控制精度在较长级别上有所下降，这可能是由于MSCOCO数据集中缺乏长字幕。

我们还对不同模型生成的图像字幕进行了多样性分析，如图8(b)和表VIII所示。从图8(b)中可以看出，我们的长度感知模型生成的图像字幕的长度在所有长度级别上均匀分布。相反，原始的AoANet、VLP和单级LaNAR-BERT的结果主要分布在最短的两个级别上。我们进一步评估了图像字幕在n-gram多样性指标如Div-1和Div-2以及最近提出的关注语义多样性的Self-CIDEr [60]得分上的多样性。从表VIII中可以看出，我们的4级模型在所有指标上都表现更好，这意味着我们可以使用我们的长度感知图像字幕生成模型为图像获得多样化的字幕。有趣的是，我们的非自回归模型LaNAR-BERT在所有三个多样性指标上都显著优于所有比较的自回归方法。

V. 定性结果

在本节中，我们展示了由我们的长度可控模型生成的图像字幕的一些示例。如图9所示，通常，我们的长度可控模型能够正确描述图像，同时控制生成的字幕长度在所需的长度范围内。更具体地说，长字幕（第3级和第4级）倾向于包含更多的视觉概念，而短字幕（第1级和第2级）则简要描述图像。

此外，在图10中，我们展示了在LaNAR-BERT上进行长度级别重排的一些示例结果。从图中可以看出，对于背景简单且前景对象较少的图片，模型选择生成较短的字幕，如图10的第一行所示。相反，对于场景复杂的图片，模型生成较长的句子以详细描述视觉信息，如图10的第二行所示。这表明我们的模型能够为给定图像找出合适的字幕长度。

VI. 结论

在本文中，我们提出了使用长度级别嵌入进行长度可控的图像字幕生成。通过简单地在输入标记的词嵌入上添加我们的长度级别嵌入，我们赋予了现有图像字幕生成方法控制其预测长度的能力。此外，为了自动确定图像的最合适长度级别，我们提出了通过强化学习学习长度级别重排变压器，以便捕捉图像与语言描述之间的语义复杂性的隐含关系。此外，为了提高长字幕的解码效率，我们提出了一种非自回归图像字幕生成范式LaNAR，它以与长度无关的复杂度生成图像字幕。我们进一步开发了序列级知识蒸馏策略以及细化增强序列训练方案，以提升LaNAR的性能。在实验中，我们的长度感知模型生成了高质量和长度可控的图像字幕，我们的长度级别重排变压器持续提升了最终性能。此外，我们的LaNAR模型不仅在计算复杂度上大大低于最先进的自回归方法，而且在可控性和输出多样性方面也优于自回归基线。借助先进的训练技术，我们的LaNAR的字幕质量可与领先的自回归模型相媲美。