Kosmos-2论文翻译

最新推荐文章于 2025-05-24 16:33:14 发布

别来这个网址

最新推荐文章于 2025-05-24 16:33:14 发布

阅读量561

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m0_68784427/article/details/132190968

版权

论文阅读专栏收录该内容

4 篇文章

订阅专栏

前言

本文仅仅是本人在英语水平不够的情况下对原论文的翻译，如果有错烦请指正。

第四章为实验结果，此处未翻译，感兴趣的话可以去看原文。

原始论文地址参见：https://arxiv.org/pdf/2306.14824.pdf

下面开始正式翻译：

翻译

摘要

我们提出了KOSMOS-2,一个多模态大型语言模型(MLLM),使其具备感知对象描述(例如,边界框)和将文本与视觉世界感知的新能力。具体来说,我们将指代表达式表示为Markdown中的链接,例如“[text span](bounding boxes)”, （参考下面的图可以更好的理解这段话，作者注）其中对象描述是位置词元的序列。我们构建了大规模的具有视角信息的图像-文本对数据集(称为GRIT)与多模态语料库一起训练模型。除了MLLM已有的能力(例如感知一般模态、遵循指令和进行上下文学习)之外,KOSMOS-2还将感知能力集成到下游应用中。我们在各种任务上评估KOSMOS-2,包括

(i)多模态感知,如指代表达式理解和短语感知,

(ii)多模态指代,如指代表达生成,

(iii)感知-语言任务,以及

(iv)语言理解和生成。

这项工作为发展具身AI奠定了基础,并为语言、多模态感知、行动和世界建模的大融合点亮了方向,这是实现人工通用智能的关键一步。

1 引言

多模态大型语言模型已经成功地在各种任务(如语言、视觉和视觉语言任务)中扮演通用接口的角色。MLLM可以感知各种模态,包括文本、图像和音频,并在零样本和少样本设置下使用自由格式文本生成响应。

在这项工作中,我们为多模态大型语言模型解锁了感知能力。感知能力可以为视觉语言任务提供更方便、高效的人机交互。它允许用户直接指向图像中的对象或区域,而不需要输入详细的文本描述来引用它,模型可以理解该图像区域及其空间位置。感知能力还使得模型能够用视觉答案(即边界框)回应,这可以支持更多如指代表达式理解等视觉语言任务。与仅文本响应相比,视觉答案更准确,消除了指代歧义。此外,感知能力还可以将生成的自由格式文本响应中的名词短语和指代表达式与图像区域联系起来,提供更准确、信息性强和全面的答案。

我们基于KOSMOS-1提出了KOSMOS-2,这是一个具有感知能力的多模态大型语言模型。KOSMOS-2是一个基于Transformer的因果语言模型,并通过下一个词预测任务进行训练。为了解锁感知能力,我们构建了一个网络规模的具有视角信息的图像-文本对数据集,并将其与KOSMOS-1中的多模态语料库相结合来训练模型。具有视角信息的图像-文本对是建立在LAION-2B和COYO-700M 的图像-文本对子集上的。我们构建了一个流水线,将图像字幕中的文本跨度(即名词短语和指代表达)提取得到,并链接到其在图像中对应对象或区域的空间位置(例如边界框)。我们将边界框的空间坐标转换为一系列位置词元,然后追加在其各自的文本跨度之后。该数据格式充当“超链接”,将图像中的对象或区域与字幕连接起来。

实验结果表明,KOSMOS-2不仅在KOSMOS-1中评估的语言和视觉语言任务上获得了相匹敌的性能,而且在感知任务(短语感知和指代表达式理解)和指代任务(指代表达式生成)上也取得了令人印象深刻的表现。如图2所示,集成感知能力使KOSMOS-2可用于更多下游任务,如具有视角信息的图像字幕和具有视角信息的视觉问答。

2 构建网络规模的具有视角信息的图像-文本对(GRIT)

我们提出了GRIT,这是一个大规模的具有视角信息的图像-文本对数据集,它基于COYO-700M 和LAION-2B的图像-文本子集构建。我们构建了一个流水线来提取并链接图像字幕中的文本跨度(即名词短语和指代表达)与其在图像中对应的区域。该流水线主要由两步组成:生成名词词组-边界框对和产生指代表达-边界框对。我们详细描述这些步骤如下:

步骤1:生成名词词组-边界框对给定一个图像-文本对,我们首先从字幕中提取名词词组,并使用预训练的检测器将其与图像区域相关联。如图3所示,我们使用spaCy解析字幕(“a dog in a field of flowers”),并提取所有名词词组(“a dog”、“a field”和“flowers”)。我们消除在图像中难以识别的某些抽象名词短语,如“time”、“love”和“freedom”,以减少潜在的噪声。随后,我们将图像和从字幕中提取的名词词组输入预训练的感知模型(例如GLIP ),以获取相关的边界框。我们应用非极大值抑制算法来删除与其他高度重叠的边界框,即使它们不是针对同一个名词词组。我们保留预测置信度高于0.65的名词词组-边界框对。如果没有保留任何边界框,则丢弃相应的图像-字幕对。

步骤2:产生指代表达-边界框对

为了让模型具备对复杂语言描述进行感知的能力,我们将名词词组扩展为指代表达式。具体来说,我们使用spaCy获得句子的依存关系。然后,通过递归遍历依存树中的子节点并将子节点词元与名词词组连接,将名词词组扩展为指代表达式。我们不展开具有并列关系的名词词组。对于没有子节点词元的名词词组,我们保留它们用于下一步处理。在图3所示的示例中,名词词组“a dog”可以扩展为“a dog in a field of flowers”,名词词组“a field”可以扩展为“a field of flowers”。

此外,我们只保留未被其他词汇包含的指代表达或名词词组。如图3所示,我们保留指代表达式“a dog in a field of flowers”,并删除“a field of flowers”(因为它被“a dog in a field of flowers”蕴含)和'flowers'。我们将名词词组(‘a dog’)的边界框分配给相应生成的指代表达式(“a dog in a field of flowers”)。

最后,我们获得了约9100万张图像、1.15亿个文本跨度和1.37亿个相关的边界框。我们在表1中比较了GRIT与现有公开可访问的视觉感知数据集。

3 KOSMOS-2:一个具有感知能力的多模态大型语言模型

KOSMOS-2是一个具有感知能力的多模态大型语言模型,相比KOSMOS-1,它集成了感知和指代能力。该模型可以接受用户使用边界框选择的图像区域作为输入,提供视觉答案(即边界框),并将文本输出与视觉世界感知。KOSMOS-2采用与KOSMOS-1相同的模型架构和训练目标。我们在训练数据中添加了具有视角信息的图像-文本对,以赋予模型感知和指代能力。对于具有视角信息的图像-文本对中的文本跨度(如名词短语和指代表达式)及其对应的边界框,我们将边界框的连续坐标离散化为一系列位置词元来进行统一编码。然后我们通过“超链接”数据格式将位置词元与其对应的文本跨度链接起来。模型经训练后可以在图像区域与其对应的位置词元之间建立映射,并将图像区域与其相关的文本跨度连接起来。

3.1 具有视角信息的输入表示

给定具有视角信息的图像-文本对中的文本跨度及其关联的边界框,我们首先将边界框的连续坐标转换为一系列离散位置词元的序列。对于宽度为W、高度为H的图像,我们将宽度和高度均匀分成P段。获得P×P个网格,每个网格包含(W/P)×(H/P)像素。对于每个网格,我们使用一个位置词元来表示该网格内的坐标。我们使用每个网格中心像素的坐标来确定图像上的边界框。总体而言,引入了P×P个位置词元,这些词元被添加到词汇表中,以便与文本进行统一建模。

边界框可以用其左上角点（x1，y1）和右下角点（x2，y2）来表示。我们将左上角和右下角的点离散化为位置标记。分别用特殊的边界标记<box>和</box>连接左上角位置标记<loc1>、右下角位置标记<loc2>，以表示单个边界框：“<box><loc1><loc2></box>”。如果文本范围与多个边界框关联，我们使用特殊标记<delim>来连接这些边界框的位置标记：

然后，我们以类似于Markdown中的“超链接”格式排列文本范围及其关联的位置标记。对于只有一个边界框的文本范围，生成的序列为：“文本范围<box><loc1><loc2></box>”，其中和是特殊标记，表示文本范围的开始和结束。数据格式告诉模型图像区域在边界框内与文本范围关联。对于图1中所示的示例，输入表示如下：

其中，<s>和</s>表示序列的开始和结束，<image>和</image>表示编码图像嵌入的开始和结束。<grounding>是一个特殊的标记，用于告诉模型将文本输出与视觉世界关联。我们通过查找表将输入文本标记和位置标记映射到嵌入中。与KOSMOS-1类似，我们使用一个视觉编码器和一个重采样模块来获取输入图像的图像嵌入。对于仅语言数据、跨模态配对数据（即图像-文本对）和交错的多模态数据，我们使用与KOSMOS-1相同的输入表示方式。

3.2 基于KOSMOS-1的有感知多模态大型语言模型

基于KOSMOS-1，KOSMOS-2通过融合有感知和指代能力，增强了多模态大型语言模型。KOSMOS-2同样使用基于Transformer的因果语言模型作为骨干结构，并通过下一个标记预测任务进行训练。

除了KOSMOS-1中使用的多模态语料库（包括文本语料库、图像字幕对和交错的图像-文本数据）之外，我们还在训练中添加了有感知的图像-文本对。训练损失仅考虑离散标记，例如文本标记和位置标记。模型可以通过位置标记和整个图像学习定位和理解图像区域，将文本范围与图像区域关联，并使用位置标记输出图像区域的边界框。

KOSMOS-2展现了有感知和指代的新能力。指代能力使我们能够指出带有边界框的图像区域。KOSMOS-2可以通过边界框的坐标理解用户所指的图像区域。指代能力提供了一种新的交互方式。与之前的多模态大型语言模型[ADL+22，HSD+22，HDW+23]不同，它们只能提供文本输出，KOSMOS-2可以提供视觉答案（即边界框），并将文本输出与图像相结合。有感知能力使模型能够提供更准确、信息丰富和全面的回应。除了在KOSMOS-1中评估的视觉、语言和视觉-语言任务之外，该模型还可以用于更多的下游任务，例如有感知图像字幕生成、有感知VQA、指代表达理解和生成等任务。

3.3 模型训练

训练设置

我们在新增的有感知图像-文本对、单模态文本语料库、图像字幕对和交错的图像-文本数据上训练模型。我们的训练过程使用了419K个标记的批次，其中包括来自文本语料库的185K个标记，原始和有感知图像字幕对的215K个标记，以及交错数据的19K个标记。我们将KOSMOS-2训练了60k个步骤，相当于大约250亿个标记。我们采用AdamW优化器，β值为（0.9，0.98）。我们将权重衰减设置为0.01，丢弃率设置为0.1。学习率在前375个热身步骤内增加到2e-4，然后线性减少至零。我们在256个V100 GPU上训练模型，训练大约需要一天时间。为了告诉模型何时将文本输出与视觉世界关联，在训练期间，在有感知的字幕前添加了“<grounding>”标记。

如KOSMOS-1所述，视觉编码器有24层，每层有1024隐藏大小和4096个FFN中间大小。多模态大型语言模型组件是一个24层的MAGNETO Transformer，具有2048个隐藏维度，32个注意头，和8192个FFN中间大小。可训练参数的总数约为16亿。图像分辨率设置为224×224，每块大小为14×14。我们将图像的宽度和高度分成32个区间，每个区间由7×7个像素组成。总共添加了32×32个位置标记到词汇表中。KOSMOS-2使用KOSMOS-1的权重进行初始化，新添加的位置标记的词嵌入随机初始化。我们在训练和指导调优过程中更新所有参数。

指令微调

在模型训练完成后，我们执行微调以更好地与人类指示对齐KOSMOS-2。我们将视觉-语言指导数据集（即LLaVA Instruct）和仅语言指导数据集（即Unnatural Instructions和FLANv2 ）与训练数据合并，对模型进行调优。此外，我们利用GRIT中边界框和表达式（即名词短语和指代表达式）的配对构建了有感知指导数据。给定一个表达式-边界框对，我们使用“ 表达式 ”作为输入指示，提示模型生成相应的边界框的位置标记。我们还使用类似“ 它 <box><loc1><loc2></box> 是”的提示，要求模型根据其边界框生成表达式。

5 结论

我们提出了KOSMOS-2，一种有感知多模态大型语言模型，可以将其连接到视觉世界。具体而言，我们通过将KOSMOS-1中使用的多模态语料库与GRIT相结合，对KOSMOS-2进行预训练，GRIT是一个大规模的有感知图像-文本对数据集，通过从字幕中提取和关联名词短语和指代表达式，将其与场景中的对象或区域关联起来。KOSMOS-2使我们能够感知图像区域并将文本输出与视觉世界连接，这使得有感知成为许多下游应用中多模态大型语言模型的基础能力。实验结果表明，KOSMOS-2在KOSMOS-1中评估的语言和视觉-语言任务、短语连接和指代表达理解等有感知任务，以及指代任务如指代表达生成等方面取得了令人印象深刻的结果。