Shikra:新一代多模态大语言模型,理解指向,说出坐标

Shikra是一个多模态大语言模型,能够理解并产生位置输入和输出,适用于参考对话,如在XR眼镜场景中与用户进行高效交互。模型设计简洁,无需额外编码器或插件,且在各种视觉-语言任务中表现出色,包括图像描述、目标定位等。此外,Shikra利用Grounding-CoT改进思想链,提高复杂问题的回答准确性。
摘要由CSDN通过智能技术生成

来源:AINLP

 Shikra:解锁多模态语言模型参考对话的魔法 🪄 ⭐️

093320cd9ded2055e92d9cb380fd77eb.png

Shikra和用户的对话案例

  • 在人类的日常交流中,经常会关注场景中的不同区域或物体,双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为参考对话(Referential Dialogue)

  • 如果多模态大语言模型(MLLM) 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中,用户可以使用视线注视指示任何内容与AI对话。同时AI也可以通过高亮等形式来提示某些区域,实现与用户的高效交流;

  • 本工作提出了 Shikra 模型,赋予了MLLM这样的参考对话的魔法,既可以理解位置输入,也可以产生位置输出

30c5c044221b81761786049273b60abc.png

📃论文链接:http://arxiv.org/abs/2306.15195

⚙️代码链接:https://github.com/shikras/shikra 

01


工作亮点

  1. Shikra 能够理解用户输入的 point/box,并支持 point/box 的输出,可以和人类无缝地进行参考对话;

  2. Shikra 设计简单统一,采用非拼接式设计,直接使用数字表示坐标,不需要额外的位置编码器、前/后目标检测器或外部插件模块,甚至不需要额外的词汇表。

02


模型效果

9077d01462ef66a52955d07f310bdf80.png

比如上图,用户指着右边的女生问 Shikra:“这个人[bbox]的感受如何?” Shikra 回复说:“这个人[bbox]感觉到惊喜和高兴。我们可以根据:她用手[bbox]捂着脸,看着这个男人[bbox]送她一束花[bbox]推断出来。” Shikra 不仅推理正确,并且在提到关键视觉线索的时候还会提供在图上的坐标,这让沟通更加准确高效;

cbb77330c26c9cd2235ab91256ccf73b.png

我们来看来自GPT4论文中的网红图片。相比GPT4的回复,Shikra 的回复不光 Get 到了图片的诙谐之处,还更确切地指出了每个需要被关注的目标的位置。作为对比,下面是GPT4的回答:

f91d5200c0223654aa3d93336082c0f3.png

我们在下面再展示几个例子,更多的例子可以查阅 Paper。

aa49f10941383905c5295469d9ec148e.png

比如 Shikra 会拼拼图,知道用户指出的拼图块应该拼到哪里。

8e3b50e878404c7bf44c78cb2092808f.png

用户指出两个区域, Shikra 会分辨出哪一个是倒影,哪一个是真身。

949278394e3d1f0430c5c9665fa562c4.png

问 Shikra 这是不是兔兔🐰,她也不会上当,会指出这是一个小柴,只是穿着带着兔兔耳朵的衣服,在反驳时,Shikra 会一个一个指给你看af0995b572777f9ef6c7f37e4c47e33d.png

03


Box/Point 都行

对于输入输出模型还支持使用点(Point) 的形式,用户在操作的时候会更加方便,无论是电脑上的鼠标点击,还是Vision Pro的注视点,都更加顺心了。下面是在PointQA数据集上的例子:

9744cd4b20ea8f0df7b4247f94df31a3.png

当然 Shikra 也支持Point的输出,比如Visual-7W中的例子,从诸多框中选择一个作为答案:

09144015b9018e73ace16dc7bc2b67ed.png

04


传统任务

参考对话(RD)是很多视觉-语言(VL)跨模态任务的超集,因此 Shikra 天然可以适配到不同的任务上,比如下面的表达式生成任务(REG),要为用户指定的区域生成图片中图一无二的描述。

c144bf5e8e06ffb6e141fb9a697bc95c.png

这难不倒 Shikra,她正确地说出了这是一个坐着三个人的长凳。

另外我们可以看下VL领域经典的表达式定位任务(REC),要求模型定位出用户给出的表达式:

e23bdad07ed202e9dd785effab452ae9.png

ef0babcabd4b87582a5528ca5e9e32c2.png

定位出背景中的人,定位出风筝的线,都没有问题!示例看的不过瘾?可以看看的在REC上的定量指标Shikra 取得了很不错的成绩:

6d8dbac39039ed49e96906243fdb9af1.png

Shikra 也有一定的OCR能力,尽管没有专门在相关的数据上训练:

18ffe9ed5812be1b7cb179c52307629a.png

还有本工作定义的新任务,Spotting Captioning 任务,模型需要边描述图片边写出提到的物体的坐标,效果就像这样:

062eee1ae1699135f14c58c59348f7bb.png

当然也少不了最经典的 VQA 和 Image Captioning 的定量评价,Shikra取得了 promising 的结果:

b40d0106260203213475a8c5c251a416.png

在最新的POPE评价指标上,Shikra也表现不错,Shikra取得和InstrcutBLIP相当的结果,并远超近期其他MLLMs:

dc28fd70bc78449aa44c59c12bea8ad9.png

05


Shikra 原理

模型架构采用CLIP ViT-L/14 作为视觉主干,Vicuna-7/13B作为基语言模型,使用一层线性映射连接CLIP和Vicuna的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置,使用[xmin, ymin, xmax, ymax] 表示边界框,使用[xcenter, ycenter]表示区域中心点,区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。在论文中,本工作也尝试使用其他方式进行数值表示,并做了定量的对比实验,感兴趣的朋友可以查看论文。

06


新思维链形式

思想链(CoT),旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。目前的MLLM还存在严重的幻视问题,CoT也经常会产生幻觉,影响最终答案的正确性。通过在合成数据集CLEVR上的实验,本工作发现,使用带有位置信息的CoT时,可以提升模型回答的准确率。

6e5dbdd9825ea67e900f21b69c830214.png

如果只用纯文本的CoT,模型性能反而会降低,甚至不如不用CoT的结果。但是在CoT中包含坐标信息,性能得到了提升,我们将这种新的 CoT 方式称为 Grounding-CoT(GCoT)。不过该探究仍然比较初步,仍是值得去论证的方向。

07


总结

本工作介绍了一种名为 Shikra 的简单且统一的多模态大语言模型,以自然语言的方式理解与输出空间坐标,为MLLM增加了类似于人类的参考对话能力,无需引入额外的词汇表、位置编码器或外部插件;

代码、模型、数据均开源在:https://github.com/shikras/shikra 

后续会继续加入更有意思的特性,也会开放Demo试玩,感兴趣的朋友可以 Star ⭐️ ⭐️ ⭐️ ⭐️ 关注一下。

分享

收藏

点赞

在看

01bd71f1a56e91d29048fafed0f76703.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值