我们距离GPT-4V真的很近了吗?

本文探讨了视觉语言模型的发展,特别是GPT-4V的可能架构和当前挑战。文章指出,尽管模型架构和数据是关键,但与GPT-4V的距离仍然遥远。作者提到了模型架构的组件,如基座语言模型、视觉编码器和模态桥接,并讨论了数据在模型训练和测评中的重要作用。未来发展方向包括基模型的指令理解和模态对齐的改进,以及多样的监督微调数据构建。
摘要由CSDN通过智能技术生成

d7c9af41e9b0aee4f466172379d90cdf.gif

©PaperWeekly 原创 · 作者 | 李磊

单位 | 香港大学

在 ChatGPT 引爆 AI 圈之后,很多人预言 2024 年将会是多模态的元年。的确,我们在 23 年的最后一季度见证了 GPT-4V 的发布,前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也同样支持多模态(Multimodal to Text),并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。

国内这方面的工作以 Qwen-VL 为代表,也同样取得了非常不错的效果。我们最近也在大视觉语言模型(LMM)做了一些尝试,发布了 Reka Flash,能够接受图片、音频和视频的输入,在 MMMU 上也靠着相对较小的基础语言模型(21B)也排名能够排名靠前(截至 2024 年 3 月 9 日,这各领域变化太快了谁知道明天会是什么样呢哈哈),且 vibe test 下来感觉还行)。

54d7824bbff64f91e36e68b10fd99a5f.png

但是我们真的距离 GPT-4V 很近了吗?The Dawn of LMMs 展现了很多目前无法被 benchmark 分数所涵盖的能力,似乎还在提醒着我们,前面的路还很长。这篇文章,我将尝试结合自己的经历和公开的资料,分享一下对未来视觉语言模型发展的一些想法。

9915c4f6297fe0956b564ae4d2c72e5c.png

Why LMMs?

为什么大家都会预测视觉语言模型会在 2024 年爆发?我觉得原因主要有两点:

1. 视觉的基础模型众多 + 数据充足:CV 的自监督学习随着 BERT 开始就已经有一系列工作,CLIP、MAE 、DINO 等能够很好地编码图片,很好地起到了 visual tokenizer 的效果。

此外,应对上下文的限制,QFormer、Perceiever 也已经被广泛地验证了其有效性。除了纯文本以外,图文对也是少数我们能够轻易获取到的大量的数据 (e.g,Laion5B),image captioning 本质也是一种 next token prediction。

2. 应用场景广泛:这个也很直接,日常生活中大多数数据的呈现方式就是,图片 + 文本 -> 文本的范式能够极大扩充模型处理任务的范围。

另外,随着大语言模型发展催生出的一系列 Agent 研究,在浏览网页的时候会依赖 html 作为输入。如果能够直接让 Agent 看到屏幕,输出对应的操作坐标,更加简洁优雅。进一步地,Deepmind 的 RT 2 也验证了视觉语言模型能够很快地迁移到诸如 robotic 场景,在 embodied 环境中发挥重要的作用。

这两个条件可谓是大视觉语言模型发展的天时和地利,我们也同样可以用这一条路径来进一步验压缩即智能这一想法,看看这一框架是否能够在具备了更丰富模态信息后,背后世界模型的学习速率是否会进一步加快

关于这一点,之前我们的一个工作 VEC 就发现即使基于纯文本 NTP 训练的 LLMs 也能够学习到视觉世界的一些基础概念,但更 embodied 的一些知识则很难(或者以相当低的速率)被学习到,需要借助视觉语言模型来辅助学习。

ebb8755c048083e2fd3f9a41b5f05b48.png

模型架构

目前主流的 LMM 架构基本上是以大语言模型 LLM 为核心骨架,然后将图片视觉信息整合到 LLM 的预测过程中,因而这个框架里一般有以下几个组件:

1. 基座语言模型:负责处理多模态的 embedding,并且执行预测推理的功能。一般选择能够获取到的最强、大小最合适的语言模型即可;

2. 视觉编码器:负责将图片信息编码成一组向量,常用的选择是 CLIP-style 的各个模型(e

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值