Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic----Shikra：释放多模式法学硕士的参考对话魔力

最新推荐文章于 2025-03-26 09:31:11 发布

Mars_prime

最新推荐文章于 2025-03-26 09:31:11 发布

阅读量1.3k

点赞数 17

分类专栏： LVLM 文章标签： LVLM

本文链接：https://blog.csdn.net/Mars_prime/article/details/135671581

版权

LVLM 专栏收录该内容

11 篇文章

订阅专栏

摘要

在人类对话中，个人在向他人讲话时可以指出场景中的相关区域。反过来，如果有必要，对方也可以通过提及特定区域来做出回应。在当前的多模态大语言模型（MLLM）中，对话中的这种自然参考能力仍然不存在。为了填补这一空白，本文提出了一种名为 Shikra 的 MLLM，它可以处理自然语言的空间坐标输入和输出。其架构由视觉编码器、对齐层和 LLM 组成。它的设计简单明了，不需要额外的词汇、位置编码器、前/后检测模块或外部插件模型。所有输入和输出都是自然语言形式。参考对话是各种视觉语言（VL）任务的超集。 Shikra 可以自然地处理与位置相关的任务，如 REC 和 PointQA，以及传统的 VL 任务，如图像字幕和 VQA。实验结果展示了 Shikra 的良好性能。此外，它还支持许多令人兴奋的应用，例如在思想链中提供提到的对象的坐标以及比较用户指向的区域的相似性。我们的代码和模型可通过 https://github.com/shikras/shikra 访问。

1 引言

近几个月来，多模态大语言模型（MLLM）取得了显着的进展（Alayrac et al., 2022; Huang et al., 2023; Liu et al., 2023a; Zhu et al., 2023; Li et al., 2023）。，2023a；高等人，2023；戴等人，2023）。他们引入了大型语言模型（LLM），用户可以在其中讨论输入图像。然而，尽管这些模型可以感知图像内容，但它们无法与用户就内容的精确位置进行对话。用户无法指示图像中感兴趣的区域，模型也无法提供所描述内容的确切位置。不同的是，如图1所示，在人类日常交流中，经常会关注场景中的不同区域或物体，人们可以通过说话并指向这些区域来进行高效的信息交换。我们将这种交互模式称为参考对话（RD）。如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 耳机中，用户可以指示任何内容以与人工智能助手交谈。 AI助手可以在必要时在视野中显示提示区域。它还通过理解个人的特定参考位置来帮助视觉机器人与个人进行交流。它使用户能够查询图像中感兴趣的商品，从而促进在线购物。

在本文中，我们进化了 MLLM 以揭开参考对话的面纱。我们创建了 Shikra1，一个能够处理空间坐标输入和输出的统一模型。所有坐标（输入和输出）都以自然语言数字形式表示，无需引入任何额外的词汇或位置编码器。 Shikra 架构包括视觉编码器、对齐层和 LLM。我们没有引入任何前/后检测模块或外部插件模型，使 Shikra 统一且简单。我们在图2和附录C中提供了几个与用户的真实对话，用户可以用它来比较多个区域的差异、询问缩略图的含义、讨论特定对象等。Shikra可以在回答任何问题时提供解释，不仅是言语上的，而且是空间上的。

参考对话是许多视觉语言（VL）任务的超集。 Shikra 擅长 RD，自然可以以有希望的性能完成这些任务，包括视觉问答（VQA）、图像字幕以及与位置相关的任务，例如参考表达理解（REC）和 PointQA，我们在图 1 中说明了其中一些2. 更多定量结果请参见6.3节。此外，本文还解决了一些有趣的问题，例如如何表示图像中的位置（第 6.2 节）。以前的 MLLM 是否具有理解绝对位置的能力？（第 4 节）。利用位置信息进行推理过程能否帮助提供更准确的问题答案？（第 6.1 节）。我们希望这些分析实验能够启发未来关于 MLLM 的研究。

本文的主要贡献是：

• 本文介绍了参考对话（RD）的任务，它是人类日常交流的重要组成部分，具有广泛的实际应用。 • 我们为研发人员介绍Shikra，一位多面手MLLM。 Shikra 简单且统一，无需引入额外的词汇、前/后检测模块或外部插件模型。

• Shikra 可以轻松处理看不见的设置，创建多样化的应用场景。它还在传统视觉语言任务（如 REC、PointQA、VQA 和图像字幕）上取得了良好的性能，无需进行微调。

2 相关工作

2.1 多模态大语言模型

将大语言模型扩展到多模态版本引起了广泛的关注。 Flamingo（Alayrac 等人，2022）将视觉适应层（如 Perceiver）集成到法学硕士中，并在大规模交错图像文本数据集上进行训练。 OpenFlamingo（Awadalla 等人，2023）重新实现了 Flamingo 并将其与 M3C 数据集一起发布到社区。随后，MM-GPT（Gong 等人，2023）和 Otter（Li 等人，2023a）调整精心构建的指令数据，以实现更加用户友好的交互。另一种类型是 BLIP-2（Li 等人，2023b），它使用多种视觉语言损失（模型名为 Q-Former）将查询的视觉特征与文本对齐，并调整一个简单的完全连接层以将查询的嵌入提供给冻结的语言模型。 Mini-GPT4 (Zhu et al., 2023)、mPLUG-OWL (Ye et al., 2023)、VPGTrans (Zhang et al., 2023a) 和 InstructBLIP (Dai et al., 2023) 保留 Q-Former，替换语言模型到一个更大的模型，然后根据精心收集的指令数据进行调整。此外，还有更简单、更直接的方法：FROMAGe (Koh et al., 2023) 和 LLaVA (Liu et al., 2023a) 仅使用可学习的全连接层直接将视觉特征提供给 LLM。闭源商业模型GPT-4（OpenAI，2023）也展示了惊人的图像理解能力。最近，一些有趣的工作通过将LLM扩展到音频领域，取得了显着的进展，例如KOSMOS-1 (Huang et al., 2023)、X-LLM (Chen et al., 2023)、PandaGPT (Su et al., 2023)和PaLM-E（Driess 等人，2023）和 EmbodiedGPT（Mu 等人，2023）等控制系统

2.2 视觉语言定位任务

许多视觉语言任务需要本地化表示。带有输出框的任务：引用表达式理解（REC）（Kazemzadeh 等人，2014；Mao 等人，2016）旨在定位由引用表达式描述的图像中的目标对象。

描述的对象检测（Xie et al., 2023）将 REC 扩展到更现实的场景，其中对象可能不存在或可能存在多个对象。 VQA Grounding 旨在回答视觉问题并将答案与特定的视觉区域或物体相关联。带输入框的任务：给定图像和位置框，Grounding Caption (GC)（Zhou et al., 2020）的任务是通过考虑周围环境来生成该位置的描述。与 GC 相比，引用表达式生成（REG）（Liu et al., 2017）要求生成的描述表明它具体描述了该区域，而不是其他区域，这使得描述必须具有区分性。 PointQA（Mani 等人，2020）需要针对视觉问题的模型答案，其中提问者查询图片中的特定位置。不同的是，我们的模型不仅兼容上述任务，而且可以灵活地同时处理位置表示的输入和输出，为位置任务带来参考对话并扩展新的维度。

2.3 位置表示

将感兴趣区域输入到模型中提出了多种方法。一些方法（Bracha 等人，2023）直接将裁剪后的图像块与原始图像连接起来作为模型输入。还有一些方法（Lin et al., 2020, 2022）使用 0/1 mask 或高斯图输入与原始图像来强调用户感兴趣的区域。一些方法（Tancik 等人，2020；Kirilov 等人，2023）首先将点和框编码为位置编码，然后将它们添加到中间特征或学习查询中。输出感兴趣区域是一项高度集中的技术，现有许多定位范例。基于锚点的方法利用预定义的滑动窗口和候选候选区域进行分类，例如 Fast R-CNN (Girshick, 2015)。一些一阶段方法会删除锚点并直接回归边界框坐标的四个值，例如 FCOS (Tian et al., 2019)。一些方法采用一对一的标签分配将目标检测演变成端到端的方式，例如 DETR (Carion et al., 2020) 和 POTP (Wang et al., 2021)。一个有趣的类型是 Pix2seq（Chen 等人，2021），它将检测任务形式化为序列生成任务。它需要 1,000 个 bin 中图像的空间位置，并使用 1,000 个标记词汇来表示它。对于检测，Pix2seq 以自回归的方式对坐标词汇进行分类。继 Pix2seq 之后，有几种方法，例如 OFA (Wang et al., 2022b)、Unified-IO (Lu et al., 2022)、UniTab (Yang et al., 2022)、GIT (Wang et al., 2022a)、 VisionLLM（Wang 等人，2023b）在对象检测和 REC 任务的语言词汇旁边引入了类似的坐标词汇。不同的是，Shikra 将位置输入/输出表述为最自然、最灵活的语言形式，并将其与第 6.2 节中的额外坐标词汇进行比较。

3 参考对话

为了更好地理解我们模型的有趣能力，我们在图 1 和图 2 中演示了真实用户的通信。如图 1 的第一个演示所示，用户指向两只鹿，并询问：“这是什么？”这只鹿和另一只鹿有什么区别？”当Shikra回答时，她不仅提到差异，还输出差异的坐标。图 2 中的后续示例类似。据我们所知，之前还没有统一的模型可以实现这样的功能。 RD 是众多视觉语言任务的超集。 Shikra 可以执行大多数与当前 MLLM 类似的任务，包括 VQA、图像字幕和多模态对话。此外，它还可以处理它们无法处理的任务，例如 REC、REG 和 PointQA。该模型展示了对训练集中未包含的任务的熟练程度，例如识别两个指示对象之间的相似性，或者计算某些东西并提供它们的位置。我们在附录C中展示了更多结果。如果您对定量实验感兴趣，可以参考后面的第6节。

4 当前 MLLM 的棋盘测试

当前 MLLM 模型能否理解绝对空间位置？目前的MLLM不能直接输出坐标；因此，在本节中，我们设计了一个棋盘测试，将对象基础简化为零件选择任务。具体来说，我们将图像划分为 2 × 2 的棋盘。接下来，我们问，“如果将图片平均分为四个 2 × 2 部分，<image> 属于哪一部分？从以下选项中选择：(A) 左上 (B) 右上 (C) 左下 (D) 右下。”，其中 <image> 和 <expr> 表示输入图像标记和类名称。我们从 LVIS（Gupta 等人，2019）构建测试数据，这是一种具有 1000 多个入门级对象类别的感知检测。我们选择完全位于某个部分内的对象（即不考虑不明确的位置）。总共，我们为每个部分选择 600 张图像，从而生成 945 个类别的 2,400 张图像。我们采用LLaVA-13B（Liu et al., 2023a）进行棋盘测试，但结果并不令人满意。我们尝试了各种指导方法，LLaVA 应该达到 25.96% 的准确率，这与随机选择相当。这表明先前的粗粒度视觉语言对齐预训练可能不足以让 MLLM 捕获图像的精确空间位置。我们需要探索适当的坐标表示和更细粒度的训练数据。

5 培育Shikra

本节介绍Shikra的诞生，包括它的结构设计、位置表示、训练数据构建和训练策略。

5.1 架构

我们选择 CLIP 的预训练 ViT-L/14 作为视觉编码器，选择 Vicuna-7/13B 作为我们的 LLM。我们使用一个全连接层将 ViT 的 16 × 16× 输出嵌入 V ε R16×16×1024 映射到 V′ ε R256×D，以实现 LLM 的模态对齐和正确的输入维度。 Vicuna7B 的 D 值为 4,096，Vicuna-13B 的 D 值为 5,120。视觉嵌入可以插入到输入序列的任何位置。在训练过程中，既涉及全连接层，也涉及整个语言模型。我们没有引入任何词汇表或特殊编码器来编码位置信息。我们没有为点或边界框引入额外的前/后检测器。使用Vicuna-7B的模型被称为Shikra-7B，另一个使用Vicuna-13B的模型被称为Shikra-13B。

5.2 位置的数字表示

我们以高度直观的方式使用自然语言中的数值来表示位置。我们使用 [xmin, ymin, xmax, ymax] 表示边界框，使用 [xcenter, ycenter] 表示区域中心点。 x和y根据图像的大小进行归一化。我们默认为每个数字保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。例如，用户问题：“<image> 中还有多少件衣服与夹克颜色相同 [0.268, 0.372]？”。 Shikra 回复：“夹克 [0.268, 0.372] 是绿色的。我们可以找到一件 T 恤 [0.653, 0.532] 和九分裤 [0.569, 0.101]，具有相同的绿色。所以答案是两个。”记录坐标的方括号自然出现在句子中，可以作为任何句子成分。与常规文本一样，无歧视地标记化。

5.3 指令数据构建

我们利用两种类型的数据来训练 Shikra：重组的公共数据集，以及使用 GPT-4（OpenAI，2023）从 Flickr30K 实体（Plummer 等人，2015）构建的高质量 RD 数据。

5.3.1 公共数据的重组

我们从公共 VQA、图像字幕数据集和几个已经包含位置注释的数据集收集训练数据，例如 REC/REG 的 RefCOCO (Kazemzadeh et al., 2014)、视觉 gemone (Krishna et al., 2014)。，2017）用于接地标题，Visual-7W（Mani 等人，2020）用于 PointQA。我们还定义了新的任务形式，例如识别字幕，它要求模型描述图像并使用点或框来识别提到的对象或区域。我们使用 Flickr30K 实体来完成此任务。所有使用的数据和相应的任务可以在附录A中找到。注意，除非针对具体的比较实验另有说明，所有使用的数据都包含在报告的模型结果中。此外，应该提到的是，我们已经从训练数据中排除了测试和验证数据中存在的图像，以防止潜在的数据泄漏，尽管它们在图像-文本对方面存在区别。

5.3.2 生成数据

现有的公开数据不足以训练 RD 技能的 MLLM，因为它们缺乏带位置注释的 CoT 数据、带位置注释的自然通信数据等。我们求助于 GPT-4 来获得高质量来自 Flickr30K 实体的 RD 注释。 Flickr30K 实体对每个图像有五个描述。图像中出现的这些提到的对象将使用边界框进行标记。虽然GPT-4的API暂时看不到图像，但我们向GPT-4解释了边界框的格式，并要求它通过这五个句子和框来理解图像。接下来，我们需要 GPT-4 来设计问答对。在设计问题时，这些问题必须能够从已知信息中确定答案。这样，我们生成了 5,922 个 QA 对，其中坐标信息可能出现在问题和答案中。未来该数据集将继续扩大。您可以将其称为 Shikra-RD。

5.3.3 任务提示

我们为不同的任务构建可变的任务模板。例如，对于 SpottingS 标题任务，我们可以使用“您能否提供图像 <image> 的描述并包含每个提到的对象的坐标 [x0,y0,x1,y1]？”其中 <image> 代表视觉标记。对于PointQA，我们可以使用“参考图像<image>中的点<objs>，直接回答'<question>'”，其中<objs>表示区域的坐标，<question>表示来自源的问题数据集。对于 REC，“在 <image> 中，我需要 <expr> 的边界框坐标。”其中 <expr> 是表达式。不同任务的更多模板可以在附录中找到。

应该注意的是，我们不能将不变的任务模板用于特定类型的任务。在这种情况下，模型无法灵活接受用户指令。为了解决这个问题，我们首先描述具体任务的目的，编写一个示例模板，然后让 GPT-4 用丰富的语言重写它，将其扩展为数百种变体来传达相同的含义。在训练过程中，我们可以随机选择它们。我们在附录 B 中提供了一些生成的任务模板的详细信息。