从感知到理解-融合语言模型的多模态大模型研究-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132094740

本文探讨了大语言模型（LLM）与视觉模型融合的多模态技术，旨在实现具有推理能力的通用模型。通过视觉-语言对齐技术，如CLIP，解决开放集的零样本识别问题。文中介绍了几个关键模型，如BLIP2、MiniGPT-4、LLaVA和VisionLLM，强调了多模态模型在目标定位和多轮对话能力方面的进展。同时，提出了多模态大模型的评测基准LAMM和MMBench，展示了该领域的发展趋势和挑战。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 张燚钧

单位 | 中国移动云能力中心

研究方向 | 预训练大模型

引言

近年来，大语言模型（Large language model, LLM）取得了显著进展。以 ChatGPT 为代表的 LLM 在自然语言任务上展现出惊人的智能涌现能力。尽管 LLM 在很多推理任务上表现出前所未有的接近人类的性能，但是单纯的LLM只能处理文本类任务。

如图 1、2、3 所示，GPT-4 在技术报告中展示了惊艳的多模态能力。但是 GPT-4 的多模态能力接口还没有开放。与此同时，在大规模数据集上预训练的视觉基础模型也在快速发展。尽管在视觉领域还没有出现“ChatGPT 时刻”，但是预训练视觉基础模型已经可以在很多真实视觉场景、数据集上表现出优秀的零样本、少样本性能。如何将两者在各自领域的优秀性能结合起来，实现在视觉-语言领域具有推理能力的通用大模型是当前一个热门研究课题。

传统计算机视觉任务可以分为三个层次：

1. Close-set：在闭集问题中，算法仅需要处理已知类别的样本。在训练和测试数据集中，所有的类别都是已知的。这意味着算法不需要处理未知类别的数据。闭集问题通常更容易处理，因为在训练期间，我们可以获取所有类别的代表性样本。例如，在手写数字识别任务中，如果我们的目标仅仅是识别数字 0 到 9，那么这就是一个闭集问题。

2. Open-set：在开放集问题中，算法可能需要处理未知类别的样本。这意味着训练数据集中的类别并不完整，测试数据集中可能包含未知类别。在实际应用中，开放集问题更具挑战性，因为算法需要能够区分已知类别和未知类别的样本。

3. In the wild：这个术语指的是算法在现实世界中的应用，即在各种未受控制的环境下处理数据。这与在受控环境下（如实验室环境）进行的计算机视觉任务相反。在实际应用中，数据可能包含各种噪声、光照变化、遮挡等问题，这使得 in the wild 任务在技术上更具挑战性。例如，面部识别算法在实际生活中需要处理各种姿势、表情、光照条件和遮挡等问题。

通过视觉-语言对齐技术，代表性的如 CLIP [1]，可以解决开放集的零样本识别问题。谢凌曦在《通向通用人工智能的计算机视觉》一文中提到，LLM 辅助视觉理解用以加强 CV 问题的逻辑性、多模态对话用以促进视觉语言交互，这些工作显示出了视觉通用模型统一的前景 [2]。