我们距离GPT-4V真的很近了吗？-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/136695701

本文探讨了视觉语言模型的发展，特别是GPT-4V的可能架构和当前挑战。文章指出，尽管模型架构和数据是关键，但与GPT-4V的距离仍然遥远。作者提到了模型架构的组件，如基座语言模型、视觉编码器和模态桥接，并讨论了数据在模型训练和测评中的重要作用。未来发展方向包括基模型的指令理解和模态对齐的改进，以及多样的监督微调数据构建。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 李磊

单位 | 香港大学

在 ChatGPT 引爆 AI 圈之后，很多人预言 2024 年将会是多模态的元年。的确，我们在 23 年的最后一季度见证了 GPT-4V 的发布，前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也同样支持多模态（Multimodal to Text），并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。

国内这方面的工作以 Qwen-VL 为代表，也同样取得了非常不错的效果。我们最近也在大视觉语言模型（LMM）做了一些尝试，发布了 Reka Flash，能够接受图片、音频和视频的输入，在 MMMU 上也靠着相对较小的基础语言模型（21B）也排名能够排名靠前（截至 2024 年 3 月 9 日，这各领域变化太快了谁知道明天会是什么样呢哈哈），且 vibe test 下来感觉还行）。

但是我们真的距离 GPT-4V 很近了吗？The Dawn of LMMs 展现了很多目前无法被 benchmark 分数所涵盖的能力，似乎还在提醒着我们，前面的路还很长。这篇文章，我将尝试结合自己的经历和公开的资料，分享一下对未来视觉语言模型发展的一些想法。

Why LMMs?

为什么大家都会预测视觉语言模型会在 2024 年爆发？我觉得原因主要有两点：

1. 视觉的基础模型众多 + 数据充足：CV 的自监督学习随着 BERT 开始就已经有一系列工作，CLIP、MAE 、DINO 等能够很好地编码图片，很好地起到了 visual tokenizer 的效果。

此外，应对上下文的限制，QFormer、Perceiever 也已经被广泛地验证了其有效性。除了纯文本以外，图文对也是少数我们能够轻易获取到的大量的数据（e.g，Laion5B），image captioning 本质也是一种 next token prediction。

2. 应用场景广泛：这个也很直接，日常生活中大多数数据的呈现方式就是，图片 + 文本 -> 文本的范式能够极大扩充模型处理任务的范围。

另外，随着大语言模型发展催生出的一系列 Agent 研究，在浏览网页的时候会依赖 html 作为输入。如果能够直接让 Agent 看到屏幕，输出对应的操作坐标，更加简洁优雅。进一步地，Deepmind 的 RT 2 也验证了视觉语言模型能够很快地迁移到诸如 robotic 场景，在 embodied 环境中发挥重要的作用。

这两个条件可谓是大视觉语言模型发展的天时和地利，我们也同样可以用这一条路径来进一步验压缩即智能这一想法，看看这一框架是否能够在具备了更丰富模态信息后，背后世界模型的学习速率是否会进一步加快。

关于这一点，之前我们的一个工作 VEC 就发现即使基于纯文本 NTP 训练的 LLMs 也能够学习到视觉世界的一些基础概念，但更 embodied 的一些知识则很难（或者以相当低的速率）被学习到，需要借助视觉语言模型来辅助学习。