【多模态大模型paper阅读笔记-7】多模态大模型目标检测,精读,Shikra: Unleashing Multimodal LLM‘s Referential Dialogue Magic

在这里插入图片描述
论文:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
GitHub:
https://github.com/shikras/shikra

keypoints

精读

1. background&motivation

当时的MLLM还不存在grounding的能力,本文要填补这一空白。可以处理自然语言中的空间坐标输入和输出。所有坐标,输入和输出,都以自然语言数值形式表示,而不引入任何额外的词汇表或位置编码器。其体系结构由视觉编码器、对齐层和LLM组成,不需要额外的模块。
作者指出了一些应用,例如和VR眼镜的助手沟通时可以指定视觉区域进行对话。

2. contributions

  1. 引入了一种新任务Referential Dialogue (RD),指参考了指定区域的对话,人类日常交流中很常见;
  2. 针对RD问题提出了MLLM:Shikra,没有引入额外的词表和外部模块;
  3. Shikra 很好解决了RD问题,在REC, PointQA, VQA, and Image Captioning等方案上也表现良好。

3.related work

3.1 Multimodal Large Language Model

主要是之前的多模态大模型工作,本文模型架构类似LLaVA

3.2 Vision-Language Positioning Tasks

提及一些需要定位的图文任务(包括Referring Expression Comprehension (REC)、Described Object Detection、VQA Grounding、Grounding Caption (GC)、Referring Expression Generation (REG)、PointQA)。最后对比了一下提出的RD和这些任务的区别。
RD和以上工作的区别是,对话的输入和输出中都可以有bbox,上面的要么是只有输入有要么只有输出有。RD示例:
在这里插入图片描述

4.method

4.1 Referential Dialogue

又吹了一波这个任务,是之前所有任务的超集。

4.2 Chessboard Test for Current MLLM

设计了一个棋盘测试,测试当前的 MLLM 模型能否理解绝对空间位置。作者还说当前的 MLLM 不能直接输出坐标,然而这是错误的,LLaVA1.5就行(大雾)。
将图像划分为 2 × 2 棋盘。然后提问:“ Which part is in if the picture is divided equally into four 2 by 2 parts? Choose from: (A) Top-left (B) Top-right © Bottom-left (D) Bottom-right”
是图像token,是类别名。
这个问题就是问大模型,某某对象在图像的哪个1/4分区,让模型做选择。
测试数据来自LVIS,这是一个包含超过 1000 个入门级对象类别的感知检测。select 600 images per part, resulting in 2,400 images across 945 categories。
模型选的LLaVA-13B,试了各种提示词,最终精度25.96%,跟蒙的差不多。
作者认为:这表明先前的粗粒度视觉语言对齐预训练可能不足以让 MLLM 捕获图像的确切空间位置。我们需要探索适当的坐标表示和更细粒度的训练数据。

4.3 Breeding Shikra

4.3.1 Architecture

类LLaVA架构,原文甚至没有图。
LLM:Vicuna-7/13B
Image Encoder:ViT-L/14 of CLIP
Proj:FC全连接层

CLIP提取的embedding可以插到输入序列的任何位置。
再次强调没有引入任何额外词汇,前后的detect模块,以及位置编码信息。

4.3.2 Numerical representation of position

我们用数值在自然语言中以一种非常直观的方式表示位置。我们用[xmin, ymin, xmax, ymax]表示边界框,用[xcenter, ycenter]表示区域中心点。x和y根据图像的大小进行归一化。我们默认为每个数字保留3位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。例如,用户问题:“中还有多少件衣服与夹克颜色相同[0.268,0.372]?”
Shikra回答:“夹克[0.268,0.372]是绿色。我们可以找到同样绿色的t恤[0.653,0.532]和七分裤[0.569,0.101]。所以答案是两个。”记录坐标的方括号自然地出现在句子中,可以作为任何句子的组成部分。像普通文本一样,没有做任何特殊标记。

4.3.3 Instruction data construction

用了两种数据训练:重构的公共数据集和来自Flickr30K的高质量RD数据集(后者用GPT4处理得到的)。

Reorganization of public data:
我们从公共VQA、Image Captioning数据集和几个已经包含位置注释的数据集收集训练数据,例如RefCOCO、Visual-7W

Generated data
现有的公开可用数据不足以训练一个熟练掌握RD的mlm,因为他们缺乏带有位置注释的CoT数据、带有位置注释的自然对话数据等。
我们使用GPT-4从Flickr30K实体中获得高质量的RD注释。Flickr30K Entities对每张图像有五个描述,每个描述都有对应的bbox。作者将这些描述和bbox喂给GPT-4,来生成RD数据,一共生成了5922对。

Task prompts
我们为不同的任务构建可变的任务模板。例如,对于spotings标题任务,我们可以使用“Can you provide a description of the image and include the coordinates[x0,y0,x1,y1] for each mentioned object?”其中表示视觉标记。
对于PointQA,我们可以使用“Referring to point in image , give a direct answer to '”,其中表示区域的坐标,表示源数据集中的问题。
对于REC,“In , I need the bounding box coordinates of ”其中是表达式。更多不同任务的模板可以在附录中找到。
应该注意的是,我们不能为特定类型的任务使用不变任务模板。在这种情况下,模型不能灵活地接受用户的指令。为了解决这个问题,我们首先描述具体任务的目的,编写一个示例模板,然后让GPT-4用丰富的语言重写它,将其扩展成数百种变体来传达相同的意思。在训练过程中,我们可以随机选择。我们在附录B中提供了一些生成任务模板的详细信息。

4.3.4 Tuning details

Shikra的训练分为两个阶段。在第一阶段,我们在重组的VL数据集(第5.3.1节)上训练它100,000步(大约1.5 epoch);在第二阶段,我们将llava - instruction - 150k (Liu et al., 2023a)和我们生成的RD数据(第5.3.2节)的采样率提高到50%。在这两个阶段,我们冻结视觉编码器,调整LLM中的所有参数。我们采用AdamW (Loshchilov and Hutter, 2019)作为优化器,采用余弦退火调度器(Loshchilov and Hutter, 2017)作为学习率调度器,初始学习率为2e-5,全局批大小为64。所有的训练运行在8个NVIDIA A100 gpu。第一阶段训练大约需要100小时,第二阶段训练需要20小时。

5.experiment

5.1 Grounding CoT or verbal CoT?

在本节中,我们将研究带有位置注释的CoT是否可以减少幻觉并提高模型性能,称之为Grounding CoT。因为:
在给出答案之前进行推理的过程被称为思维链(CoT),它在模型判断过程中提供了很好的解释。然而,CoT经常会出现幻觉(Zhang et al., 2023b),这通常不会提高最终答案的表现。目前的mllm还存在严重的视幻觉。
在CLEVR上测试,使用了三种配置:仅问答、带思维链的问答,带中心点坐标的思维链的问答(每个提到的对象提供CoT以及中心点[xcenter, ycenter])。
在这里插入图片描述
表明使用位置注释进行训练会抑制视觉幻觉。这是 GCoT 的初步尝试,这是一个值得探索的有前途的方向。

5.2 Location tokens or just numbers?

该实验为了验证在自回归模型的检测任务中,对于bbox的描述使用额外词表和本文直接用自然语言的数字哪个更好。作者分别用这两种方法训练Shikra:
在这里插入图片描述
可见本文的方法更好,且对用户更友好。但是,它也有一些缺点。与使用额外的词汇表相比,数值表示需要更多的token来表示坐标,从而在预测密集对象时增加了计算成本。

5.3 Quantitative results on conventional tasks

为了验证positioning capability:

对几个REC任务,要求模型用表达式描述的对象进行grounding。与通用VL(视觉语言)模型和检测专用模型进行对比。shikra使用的提问为:“I’d like to know the exact coordinates of in the photo .”

在这里插入图片描述
实验验证了shikra优于其他通用VL模型。

验证our model’s understanding of position inputs

使用了两种PointQA datasets,LookTwice-QA和Visual7W。
LookTwice-QA要求模型回答关于用户指定区域的问题,可以是中心点,也可以是框,区别在于这些问题需要首先理解用户指定的区域,然后观察整个图像来回答。
Visual7W同样是输入中有坐标,其中模型被给一个问题和四个选项,做选择。

验证没有坐标的其他VL任务

在这里插入图片描述

验证POPE evalution pipeline

在这里插入图片描述

6. Limitations and Conclusion

  1. 仅支持英文
  2. 对密集检测任务不友好
  3. LLM幻觉问题
    我们的研究揭示了mlms在理解和参与参考对话(人类沟通的一个组成部分)方面的关键差距。为了解决这个问题,我们引入了Shikra,这是一个统一的、简单的模型,旨在以自然语言理解和输出空间坐标。我们的方法不需要额外的词汇表、位置编码器或外部插件,从而保持了模型的简单性。事实证明,Shikra在各种传统视觉语言任务上表现出色,同时提供了大量令人兴奋的应用。
  • 11
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值