©PaperWeekly 原创 · 作者 | 李磊
单位 | 香港大学
在 ChatGPT 引爆 AI 圈之后,很多人预言 2024 年将会是多模态的元年。的确,我们在 23 年的最后一季度见证了 GPT-4V 的发布,前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也同样支持多模态(Multimodal to Text),并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。
国内这方面的工作以 Qwen-VL 为代表,也同样取得了非常不错的效果。我们最近也在大视觉语言模型(LMM)做了一些尝试,发布了 Reka Flash,能够接受图片、音频和视频的输入,在 MMMU 上也靠着相对较小的基础语言模型(21B)也排名能够排名靠前(截至 2024 年 3 月 9 日,这各领域变化太快了谁知道明天会是什么样呢哈哈),且 vibe test 下来感觉还行)。
但是我们真的距离 GPT-4V 很近了吗?The Dawn of LMMs 展现了很多目前无法被 benchmark 分数所涵盖的能力,似乎还在提醒着我们,前面的路还很长。这篇文章,我将尝试结合自己的经历和公开的资料,分享一下对未来视觉语言模型发展的一些想法。
Why LMMs?
为什么大家都会预测视觉语言模型会在 2024 年爆发?我觉得原因主要有两点:
1. 视觉的基础模型众多 + 数据充足:CV 的自监督学习随着 BERT 开始就已经有一系列工作,CLIP、MAE 、DINO 等能够很好地编码图片,很好地起到了 visual tokenizer 的效果。
此外,应对上下文的限制,QFormer、Perceiever 也已经被广泛地验证了其有效性。除了纯文本以外,图文对也是少数我们能够轻易获取到的大量的数据 (e.g,Laion5B),image captioning 本质也是一种 next token prediction。
2. 应用场景广泛:这个也很直接,日常生活中大多数数据的呈现方式就是,图片 + 文本 -> 文本的范式能够极大扩充模型处理任务的范围。
另外,随着大语言模型发展催生出的一系列 Agent 研究,在浏览网页的时候会依赖 html 作为输入。如果能够直接让 Agent 看到屏幕,输出对应的操作坐标,更加简洁优雅。进一步地,Deepmind 的 RT 2 也验证了视觉语言模型能够很快地迁移到诸如 robotic 场景,在 embodied 环境中发挥重要的作用。
这两个条件可谓是大视觉语言模型发展的天时和地利,我们也同样可以用这一条路径来进一步验压缩即智能这一想法,看看这一框架是否能够在具备了更丰富模态信息后,背后世界模型的学习速率是否会进一步加快。
关于这一点,之前我们的一个工作 VEC 就发现即使基于纯文本 NTP 训练的 LLMs 也能够学习到视觉世界的一些基础概念,但更 embodied 的一些知识则很难(或者以相当低的速率)被学习到,需要借助视觉语言模型来辅助学习。
模型架构
目前主流的 LMM 架构基本上是以大语言模型 LLM 为核心骨架,然后将图片视觉信息整合到 LLM 的预测过程中,因而这个框架里一般有以下几个组件:
1. 基座语言模型:负责处理多模态的 embedding,并且执行预测推理的功能。一般选择能够获取到的最强、大小最合适的语言模型即可;
2. 视觉编码器:负责将图片信息编码成一组向量,常用的选择是 CLIP-style 的各个模型(e