超越GPT-4!爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

831019abdc8bf9ecfca8a5d091c68853.gif

©作者 | 桃子 拉燕

来源 | 新智元

碾压 GPT-4 识图能力的多模态生成模型来了。华人团队最新提出的 InstructBLIP 在多项任务上实现 SOTA。

GPT-4看图聊天还没上线,就已经被超越了。

近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。

525b4b2ffc3f6c01914555f803a805cd.png

BLIP家族中增加了一个新成员:InstructBLIP

据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。

比如,下图这一场景可能发生了什么?

InstructBLIP推理出,可能飓风,或者恶劣的天气因素造成的。

efe2ab32feedafb7a2347999752523db.gif

给我介绍下这幅画

4c411a9c139ad52f69ce2500e3a2c912.gif

进行多轮对话

dc6ff038f67add5b0bce4c3363385440.gif

研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好。

最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。

为啥如此之强?

d01250fee12fe5be767c23e1bfd067cc.png

新王者:InstructBLIP


InstructBLIP的主要意义就在于解决视觉-语言指令微调中的挑战,并对模型未见过的数据和任务的改进泛化能力进行系统研究。

5ae7f2f18e3e99d676f077b8f3d4c26d.png

论文链接:

hhttps://arxiv.org/pdf/2305.06500.pdf

在论文中,研究人员首先介绍了指令微调数据的构建,然后则是具体的训练过程。

之后,分别从模型和数据的角度阐述了两种提高指令微调性能的技术。

为了保证指令微调数据的多样性,同时考虑到它们的可及性,研究人员收集了大量公开可用的视觉语言数据集,并将它们转化为指令微调格式。

下图中,研究人员最终收集的数据涵盖了11个任务类别和28个数据集。

其中包括图像字幕、带有阅读理解的图像字幕、视觉推理、图像问题回答、基于知识的图像问题回答,带阅读理解的图像问题回答,图像问题的生成(与QA数据集相反),视频问题回答,视觉对话问题回答,图像分类,以及LLaVA-Instruct-150K。

1bf99e77b5ab35a88f2a55be1aa62a87.png

对于每一项任务,研究人员都会用自然语言制作10-15个不同的指令模板。这些模板是构建指令微调数据的基础,它阐明了任务并划定了目标。

对于固有的偏向于短反应的公共数据集,研究人员在一些相应的指令模板中使用较短的术语,以减少模型适应总是生成短回应的风险。

对于LLaVA-Instruct-150K数据集,研究人员没有加入额外的指令模板,因为它是自然结构的指令格式。

现有的零样本图像到文本的生成方法,包括BLIP-2,在提取视觉特征时采取了与指令并无关系的方法。

也就是说,LLM中的视觉输入是不知道指令的,这并不利于该模型在不同任务中的灵活性。

9c3aec8ff3b6218bb534e6b3cb3ed031.gif

相比之下,指令感知的视觉模型可以提高模型从不同指令中学习的能力。

举例来说,咱们考虑两种情况:输入同一图像,模型被要求完成两个不同的任务;以及,给定两个不同的图像,模型被指示完成同一任务。

在第一种情况中,一个指令感知的视觉模型可以根据指令从同一图像中提取不同的特征,在解决不同任务时呈现出更多的信息特征。

而在第二种情况中,一个指令感知的视觉模型可以利用指令中体现的共同知识来提取两个不同图像的特征,从而实现图像之间更好的信息转移。

InstructBLIP通过充分利用BLIP-2模型中的Q-Former架构,提出了一种指令感知的视觉特征提取方法。

d358013775c944ab003b182277f60d47.png

如上图所示,Q-Former被设计用来从一个冻结的图像编码器的输出中提取视觉特征。

根据BLIP-2的论文,Q-Former已经分成两个阶段进行了预训练,通过预训练,它学会了提取可以被LLM消化的文本对齐的视觉特征。

在推理过程中,一个指令被附加在视觉提示之后,就可以指导LLM按照规定执行不同的任务。

而在InstructBLIP中,指令文本不仅作为输入给到LLM,同时也给到了QFormer。

由于训练数据集的数量众多,而且每个数据集的大小差异很大,均匀地混合这些数据集可能会导致模型在较小的数据集上过度拟合,而在较大的数据集上拟合不足。

为了缓解这样的问题,研究人员建议按照数据集的大小(即训练样本的数量)进行采样,并进行平方根平滑处理。一般来说,给定D个数据集的大小:

fac583af5698a860b7fb9f8bb97dbc66.png

在训练期间,数据样本从数据集d中被选中的概率被表述为:

f598db63326114065029e168a80d0c17.png

除了这个加权公式外,研究人员还对某些数据集的权重进行了手动微调,以提高其收敛性。

这是必要的环节,因为各种数据集和任务的内在差异,需要不同程度的训练强度,即使它们有类似的规模也是如此。

具体来说,研究人员降低了A-OKVQA(多选)的权重,增加了OKVQA的权重。

1e2b0940e771acabe19ceaedbcf51a6d.gif

214303dc77f60f6a38f6962fa26c21f5.png

实验结果


零样本评估

研究人员首先在13个数据集上评估InstructBLIP模型,并将InstructBLIP与之前的SOTA模型BLIP-2和Flamingo进行比较。

如表所示,InstructBLIP在所有的数据集上都取得了新的零样本的SOTA结果。

并且在所有的LLM上都超过了BLIP-2,这表明了视觉指令微调的有效性。

11e4d24f7043e690ee4ef6d6b2f10963.png

此外,指令微调提高了对未见过的任务类别(如视频QA)的零样本泛化能力。

尽管从未用时间视频数据进行训练,但InstructBLIP在MSRVTT-QA上比之前的SOTA提高了47.1%。

最后,研究人员用最小的InstructBLIP FlanT5XL(4B)在所有六个共享评估数据集上评估,其表现优于Flamingo-80B,平均相对改善率为24.8%。

指令调优的消融研究

为了研究指令感知的视觉特征提取和数据集平衡策略的影响,研究人员通过在指令微调过程中分别移除它们来进行消融研究。

9a18e80f2e5d9c16bdf07712488da580.png

在所有的数据集中,视觉特征中缺乏指令感知会使性能明显下降。在涉及空间视觉推理(如ScienceQA)或时间视觉推理(如iVQA)的数据集中,这种性能下降更为严重。

在这些数据集中,给Q-Former输入指令可,以引导它更多地关注信息量更大的图像嵌入。

关于数据平衡策略,移除它会导致不稳定的训练模式,因为不同的数据集在明显不同的训练步骤中达到最佳性能。因此,这种不稳定性损害了整体性能。

定性评估

此外,研究人员进一步使用更加多样化的图像和说明对Instruct-BLIP进行了定性研究。

比如使用GPT-4技术报告中的一张图。「这张图有什么不对劲的地方?」

从给出的回答中看出, InstructBLIP比GPT-4更全面,比LLaVA更视觉化,比MiniGPT-4更有逻辑性。

297be34e26caedeacb430e0759eeb6e4.jpeg

对于「蒙娜丽莎」这幅画是谁画的问题,InstructBLIP回答非常简短。

在这里,研究人员认为长回应不总是可取的。Instruct-BLIP 可以通过自适应调整响应长度直接解决用户的意图。

而其他模型倾向于生成较长的段落,以及较不相关的句子。

4ca91147d8f055bd67e02b04e03ce4e3.png

Instructlip能够取得这些优势,是使用多样化的指令调优数据和有效的架构设计的结果。

另外,通过研究发现,指令调整是提高模型零样本泛化能力的关键。

e229eb303fb59946de9120f1518b5e77.png

基于BLIP-2 FlanT5XL的指令调优和多任务训练的比较

此外,研究人员进一步对InstructBLIP模型进行微调,研究其在学习特定数据集上的表现。

与大多数以前的方法(如Flamingo,BLIP-2)相比,InstructBLIP在指令微调期间保持相同的图像分辨率(224×224),并在微调期间保持视觉编码器的冻结状态。

这大大减少了可训练参数的数量,从1.2B到188M,从而大大提高了微调效率。

153e90cf1781c7b8c0b70e3c9938d951.png

40cfdbeea418eb4071810ad263d8d2d0.png

其他SOTA

网友表示,近来提出类似InstructBLIP的多模态模型还有,MiniGPT-4,以及LLaVA。

744eb6fc6de618d59abd81bccc865232.png

MiniGPT-4也能够看图聊天,比如传一张海鲜大餐照片上去,就能直接获得菜谱。

0d57e4a1bc11c002ff47df5f20bf9614.gif

对于,MiniGPT-4能够做到这么好的效果,实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna整合起来,并且冻结了这两者大部分参数,只需要训练很少一部分。

另外,团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集,也一并开源。

还有LLaVA,是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果。

d23da91b94ca8844b546fd8124a7f497.png

关于作者

64bed325d3cc7b674e5397ab148bd374.jpeg

Wenliang Dai (戴文亮) 是香港科技大学的博士研究生,导师是Pascale Fung教授。在此之前,他曾获得伦敦大学学院硕士学位,诺丁汉大学计算机学士学位。

2ce1b29503a24b439b43d88990a9b45d.jpeg

Junnan Li,Salesforce亚洲研究院科学家,香港大学电子工程学学士,新加坡国立大学计算机博士,主要研究方向计算机视觉和深度学习、非监督式学习,弱监督学习,迁移学习和社交场景理解。

outside_default.png

参考文献

outside_default.png

[1] https://twitter.com/LiJunnan0409/status/1656821806593101827

[2] https://arxiv.org/abs/2305.06500

[3] https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

更多阅读

8f89968e2a80d4f6027f3479e9672db5.png

9d6cca34a5b88b0de8f34d8c876ed126.png

46f18373635801f76eab726a31101ef3.png

4d246c1b01c0203f9e38f40e9f7e987f.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

7191dba62a79d8ae75671ca9115510a8.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

ec3381a7efdd0a42d7c66421ac7b1934.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值