Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic----Shikra:释放多模式法学硕士的参考对话魔力

摘要

在人类对话中,个人在向他人讲话时可以指出场景中的相关区域。反过来,如果有必要,对方也可以通过提及特定区域来做出回应。在当前的多模态大语言模型(MLLM)中,对话中的这种自然参考能力仍然不存在。为了填补这一空白,本文提出了一种名为 Shikra 的 MLLM,它可以处理自然语言的空间坐标输入和输出。其架构由视觉编码器、对齐层和 LLM 组成。它的设计简单明了,不需要额外的词汇、位置编码器、前/后检测模块或外部插件模型。所有输入和输出都是自然语言形式。参考对话是各种视觉语言(VL)任务的超集。 Shikra 可以自然地处理与位置相关的任务,如 REC 和 PointQA,以及传统的 VL 任务,如图像字幕和 VQA。实验结果展示了 Shikra 的良好性能。此外,它还支持许多令人兴奋的应用,例如在思想链中提供提到的对象的坐标以及比较用户指向的区域的相似性。我们的代码和模型可通过 https://github.com/shikras/shikra 访问。

1 引言

近几个月来,多模态大语言模型(MLLM)取得了显着的进展(Alayrac et al., 2022; Huang et al., 2023; Liu et al., 2023a; Zhu et al., 2023; Li et al., 2023)。 ,2023a;高等人,2023;戴等人,2023)。他们引入了大型语言模型(LLM),用户可以在其中讨论输入图像。然而,尽管这些模型可以感知图像内容,但它们无法与用户就内容的精确位置进行对话。用户无法指示图像中感兴趣的区域,模型也无法提供所描述内容的确切位置。不同的是,如图1所示,在人类日常交流中,经常会关注场景中的不同区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。我们将这种交互模式称为参考对话(RD)。如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 (XR) 耳机中,用户可以指示任何内容以与人工智能助手交谈。 AI助手可以在必要时在视野中显示提示区域。它还通过理解个人的特定参考位置来帮助视觉机器人与个人进行交流。它使用户能够查询图像中感兴趣的商品,从而促进在线购物。

在本文中,我们进化了 MLLM 以揭开参考对话的面纱。我们创建了 Shikra1,一个能够处理空间坐标输入和输出的统一模型。所有坐标(输入和输出)都以自然语言数字形式表示,无需引入任何额外的词汇或位置编码器。 Shikra 架构包括视觉编码器、对齐层和 LLM。我们没有引入任何前/后检测模块或外部插件模型,使 Shikra 统一且简单。我们在图2和附录C中提供了几个与用户的真实对话,用户可以用它来比较多个区域的差异、询问缩略图的含义、讨论特定对象等。Shikra可以在回答任何问题时提供解释,不仅是言语上的,而且是空间上的。

参考对话是许多视觉语言(VL)任务的超集。 Shikra 擅长 RD,自然可以以有希望的性能完成这些任务,包括视觉问答(VQA)、图像字幕以及与位置相关的任务,例如参考表达理解(REC)和 PointQA,我们在图 1 中说明了其中一些2. 更多定量结果请参见6.3节。此外,本文还解决了一些有趣的问题,例如如何表示图像中的位置(第 6.2 节)。以前的 MLLM 是否具有理解绝对位置的能力? (第 4 节)。利用位置信息进行推理过程能否帮助提供更准确的问题答案? (第 6.1 节)。我们希望这些分析实验能够启发未来关于 MLLM 的研究。

本文的主要贡献是:

• 本文介绍了参考对话(RD)的任务,它是人类日常交流的重要组成部分,具有广泛的实际应用。 • 我们为研发人员介绍Shikra,一位多面手MLLM。 Shikra 简单且统一,无需引入额外的词汇、前/后检测模块或外部插件模型。

• Shikra 可以轻松处理看不见的设置,创建多样化的应用场景。它还在传统视觉语言任务(如 REC、PointQA、VQA 和图像字幕)上取得了良好的性能,无需进行微调。

2 相关工作

2.1 多模态大语言模型

将大语言模型扩展到多模态版本引起了广泛的关注。 Flamingo(Alayrac 等人,2022)将视觉适应层(如 Perceiver)集成到法学硕士中,并在大规模交错图像文本数据集上进行训练。 OpenFlamingo(Awadalla 等人,2023)重新实现了 Flamingo 并将其与 M3C 数据集一起发布到社区。随后,MM-GPT(Gong 等人,2023)和 Otter(Li 等人,2023a)调整精心构建的指令数据,以实现更加用户友好的交互。另一种类型是 BLIP-2(Li 等人,2023b),它使用多种视觉语言损失(模型名为 Q-Former)将查询的视觉特征与文本对齐,并调整一个简单的完全连接层以将查询的嵌入提供给冻结的语言模型。 Mini-GPT4 (Zhu et al., 2023)、mPLUG-OWL (Ye et al., 2023)、VPGTrans (Zhang et al., 2023a) 和 InstructBLIP (Dai et al., 2023) 保留 Q-Former,替换语言模型到一个更大的模型,然后根据精心收集的指令数据进行调整。此外,还有更简单、更直接的方法:FROMAGe (Koh et al., 2023) 和 LLaVA (Liu et al., 2023a) 仅使用可学习的全连接层直接将视觉特征提供给 LLM。闭源商业模型GPT-4(OpenAI,2023)也展示了惊人的图像理解能力。最近,一些有趣的工作通过将LLM扩展到音频领域,取得了显着的进展,例如KOSMOS-1 (Huang et al., 2023)、X-LLM (Chen et al., 2023)、PandaGPT (Su et al., 2023)和PaLM-E(Driess 等人,2023)和 EmbodiedGPT(Mu 等人,2023)等控制系统

2.2 视觉语言定位任务

许多视觉语言任务需要本地化表示。带有输出框的任务:引用表达式理解(REC)(Kazemzadeh 等人,2014;Mao 等人,2016)旨在定位由引用表达式描述的图像中的目标对象。

描述的对象检测(Xie et al., 2023)将 REC 扩展到更现实的场景,其中对象可能不存在或可能存在多个对象。 VQA Grounding 旨在回答视觉问题并将答案与特定的视觉区域或物体相关联。带输入框的任务:给定图像和位置框,Grounding Caption (GC)(Zhou et al., 2020)的任务是通过考虑周围环境来生成该位置的描述。与 GC 相比,引用表达式生成(REG)(Liu et al., 2017)要求生成的描述表明它具体描述了该区域,而不是其他区域,这使得描述必须具有区分性。 PointQA(Mani 等人,2020)需要针对视觉问题的模型答案,其中提问者查询图片中的特定位置。不同的是,我们的模型不仅兼容上述任务,而且可以灵活地同时处理位置表示的输入和输出,为位置任务带来参考对话并扩展新的维度。

2.3 位置表示

将感兴趣区域输入到模型中提出了多种方法。一些方法(Bracha 等人,2023)直接将裁剪后的图像块与原始图像连接起来作为模型输入。还有一些方法(Lin et al., 2020, 2022)使用 0/1 mask 或高斯图输入与原始图像来强调用户感兴趣的区域。一些方法(Tancik 等人,2020;Kirilov 等人,2023)首先将点和框编码为位置编码,然后将它们添加到中间特征或学习查询中。输出感兴趣区域是一项高度集中的技术,现有许多定位范例。基于锚点的方法利用预定义的滑动窗口和候选候选区域进行分类,例如 Fast R-CNN (Girshick, 2015)。一些一阶段方法会删除锚点并直接回归边界框坐标的四个值,例如 FCOS (Tian et al., 2019)。一些方法采用一对一的标签分配将目标检测演变成端到端的方式,例如 DETR (Carion et al., 2020) 和 POTP (Wang et al., 2021)。一个有趣的类型是 Pix2seq(Chen 等人,2021),它将检测任务形式化为序列生成任务。它需要 1,000 个 bin 中图像的空间位置,并使用 1,000 个标记词汇来表示它。对于检测,Pix2seq 以自回归的方式对坐标词汇进行分类。继 Pix2seq 之后,有几种方法,例如 OFA (Wang et al., 2022b)、Unified-IO (Lu et al., 2022)、UniTab (Yang et al., 2022)、GIT (Wang et al., 2022a)、 VisionLLM(Wang 等人,2023b)在对象检测和 REC 任务的语言词汇旁边引入了类似的坐标词汇。不同的是,Shikra 将位置输入/输出表述为最自然、最灵活的语言形式,并将其与第 6.2 节中的额外坐标词汇进行比较。

3 参考对话

为了更好地理解我们模型的有趣能力,我们在图 1 和图 2 中演示了真实用户的通信。如图 1 的第一个演示所示,用户指向两只鹿,并询问:“这是什么?”这只鹿和另一只鹿有什么区别?”当Shikra回答时,她不仅提到差异,还输出差异的坐标。图 2 中的后续示例类似。据我们所知,之前还没有统一的模型可以实现这样的功能。 RD 是众多视觉语言任务的超集。 Shikra 可以执行大多数与当前 MLLM 类似的任务,包括 VQA、图像字幕和多模态对话。此外,它还可以处理它们无法处理的任务,例如 REC、REG 和 PointQA。该模型展示了对训练集中未包含的任务的熟练程度,例如识别两个指示对象之间的相似性,或者计算某些东西并提供它们的位置。我们在附录C中展示了更多结果。如果您对定量实验感兴趣,可以参考后面的第6节。

4 当前 MLLM 的棋盘测试

当前 MLLM 模型能否理解绝对空间位置?目前的MLLM不能直接输出坐标;因此,在本节中,我们设计了一个棋盘测试,将对象基础简化为零件选择任务。具体来说,我们将图像划分为 2 × 2 的棋盘。接下来,我们问,“如果将图片平均分为四个 2 × 2 部分,<image> 属于哪一部分?从以下选项中选择:(A) 左上 (B) 右上 (C) 左下 (D) 右下。”,其中 <image> 和 <expr> 表示输入图像标记和类名称。我们从 LVIS(Gupta 等人,2019)构建测试数据,这是一种具有 1000 多个入门级对象类别的感知检测。我们选择完全位于某个部分内的对象(即不考虑不明确的位置)。总共,我们为每个部分选择 600 张图像,从而生成 945 个类别的 2,400 张图像。我们采用LLaVA-13B(Liu et al., 2023a)进行棋盘测试,但结果并不令人满意。我们尝试了各种指导方法,LLaVA 应该达到 25.96% 的准确率,这与随机选择相当。这表明先前的粗粒度视觉语言对齐预训练可能不足以让 MLLM 捕获图像的精确空间位置。我们需要探索适当的坐标表示和更细粒度的训练数据。

5 培育Shikra

本节介绍Shikra的诞生,包括它的结构设计、位置表示、训练数据构建和训练策略。

5.1 架构

我们选择 CLIP 的预训练 ViT-L/14 作为视觉编码器,选择 Vicuna-7/13B 作为我们的 LLM。我们使用一个全连接层将 ViT 的 16 × 16× 输出嵌入 V ε R16×16×1024 映射到 V′ ε R256×D,以实现 LLM 的模态对齐和正确的输入维度。 Vicuna7B 的 D 值为 4,096,Vicuna-13B 的 D 值为 5,120。视觉嵌入可以插入到输入序列的任何位置。在训练过程中,既涉及全连接层,也涉及整个语言模型。我们没有引入任何词汇表或特殊编码器来编码位置信息。我们没有为点或边界框引入额外的前/后检测器。使用Vicuna-7B的模型被称为Shikra-7B,另一个使用Vicuna-13B的模型被称为Shikra-13B。

5.2 位置的数字表示

我们以高度直观的方式使用自然语言中的数值来表示位置。我们使用 [xmin, ymin, xmax, ymax] 表示边界框,使用 [xcenter, ycenter] 表示区域中心点。 x和y根据图像的大小进行归一化。我们默认为每个数字保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。例如,用户问题:“<image> 中还有多少件衣服与夹克颜色相同 [0.268, 0.372]?”。 Shikra 回复:“夹克 [0.268, 0.372] 是绿色的。我们可以找到一件 T 恤 [0.653, 0.532] 和九分裤 [0.569, 0.101],具有相同的绿色。所以答案是两个。”记录坐标的方括号自然出现在句子中,可以作为任何句子成分。与常规文本一样,无歧视地标记化。

5.3 指令数据构建

我们利用两种类型的数据来训练 Shikra:重组的公共数据集,以及使用 GPT-4(OpenAI,2023)从 Flickr30K 实体(Plummer 等人,2015)构建的高质量 RD 数据。

5.3.1 公共数据的重组

我们从公共 VQA、图像字幕数据集和几个已经包含位置注释的数据集收集训练数据,例如 REC/REG 的 RefCOCO (Kazemzadeh et al., 2014)、视觉 gemone (Krishna et al., 2014)。 ,2017)用于接地标题,Visual-7W(Mani 等人,2020)用于 PointQA。我们还定义了新的任务形式,例如识别字幕,它要求模型描述图像并使用点或框来识别提到的对象或区域。我们使用 Flickr30K 实体来完成此任务。所有使用的数据和相应的任务可以在附录A中找到。注意,除非针对具体的比较实验另有说明,所有使用的数据都包含在报告的模型结果中。此外,应该提到的是,我们已经从训练数据中排除了测试和验证数据中存在的图像,以防止潜在的数据泄漏,尽管它们在图像-文本对方面存在区别。

5.3.2 生成数据

现有的公开数据不足以训练 RD 技能的 MLLM,因为它们缺乏带位置注释的 CoT 数据、带位置注释的自然通信数据等。我们求助于 GPT-4 来获得高质量来自 Flickr30K 实体的 RD 注释。 Flickr30K 实体对每个图像有五个描述。图像中出现的这些提到的对象将使用边界框进行标记。虽然GPT-4的API暂时看不到图像,但我们向GPT-4解释了边界框的格式,并要求它通过这五个句子和框来理解图像。接下来,我们需要 GPT-4 来设计问答对。在设计问题时,这些问题必须能够从已知信息中确定答案。这样,我们生成了 5,922 个 QA 对,其中坐标信息可能出现在问题和答案中。未来该数据集将继续扩大。您可以将其称为 Shikra-RD。

5.3.3 任务提示

我们为不同的任务构建可变的任务模板。例如,对于 SpottingS 标题任务,我们可以使用“您能否提供图像 <image> 的描述并包含每个提到的对象的坐标 [x0,y0,x1,y1]?”其中 <image> 代表视觉标记。对于PointQA,我们可以使用“参考图像<image>中的点<objs>,直接回答'<question>'”,其中<objs>表示区域的坐标,<question>表示来自源的问题数据集。对于 REC,“在 <image> 中,我需要 <expr> 的边界框坐标。”其中 <expr> 是表达式。不同任务的更多模板可以在附录中找到。

应该注意的是,我们不能将不变的任务模板用于特定类型的任务。在这种情况下,模型无法灵活接受用户指令。为了解决这个问题,我们首先描述具体任务的目的,编写一个示例模板,然后让 GPT-4 用丰富的语言重写它,将其扩展为数百种变体来传达相同的含义。在训练过程中,我们可以随机选择它们。我们在附录 B 中提供了一些生成的任务模板的详细信息。

  • 17
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园的建设目标是通过数据整合、全面共享,实现校园内教学、科研、管理、服务流程的数字化、信息化、智能化和多媒体化,以提高资源利用率和管理效率,确保校园安全。 智慧校园的建设思路包括构建统一支撑平台、建立完善管理体系、大数据辅助决策和建设校园智慧环境。通过云架构的数据中心与智慧的学习、办公环境,实现日常教学活动、资源建设情况、学业水平情况的全面统计和分析,为决策提供辅助。此外,智慧校园还涵盖了多媒体教学、智慧录播、电子图书馆、VR教室等多种教学模式,以及校园网络、智慧班牌、校园广播等教务管理功能,旨在提升教学品质和管理水平。 智慧校园的详细方案设计进一步细化了教学、教务、安防和运维等多个方面的应用。例如,在智慧教学领域,通过多媒体教学、智慧录播、电子图书馆等技术,实现教学资源的共享和教学模式的创新。在智慧教务方面,校园网络、考场监控、智慧班牌等系统为校园管理提供了便捷和高效。智慧安防系统包括视频监控、一键报警、阳光厨房等,确保校园安全。智慧运维则通过综合管理平台、设备管理、能效管理和资产管理,实现校园设施的智能化管理。 智慧校园的优势和价值体现在个性化互动的智慧教学、协同高效的校园管理、无处不在的校园学习、全面感知的校园环境和轻松便捷的校园生活等方面。通过智慧校园的建设,可以促进教育资源的均衡化,提高教育质量和管理效率,同时保障校园安全和提升师生的学习体验。 总之,智慧校园解决方案通过整合现代信息技术,如云计算、大数据、物联网和人工智能,为教育行业带来了革命性的变革。它不仅提高了教育的质量和效率,还为师生创造了一个更加安全、便捷和富有智慧的学习与生活环境。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值