Mini-Gemini：挖掘多模态视觉语言模型的潜力

最新推荐文章于 2024-07-09 09:58:25 发布

闯江湖50年

最新推荐文章于 2024-07-09 09:58:25 发布

阅读量668

点赞数 7

文章标签：语言模型人工智能自然语言处理数据挖掘语音识别计算机视觉 opencv

本文链接：https://blog.csdn.net/2401_84495725/article/details/138339515

版权

在这里插入图片描述
人工智能Mini-Gemini：挖掘多模态视觉语言模型的潜力毫米发布 3天前在 2024 年 4 月 26 日经过库纳尔·凯杰里瓦尔
Mini-Gemini：挖掘多模态视觉语言模型的潜力
大型语言模型的进步大大加速了自然语言处理(NLP) 的发展。Transformer 框架的引入被证明是一个里程碑，促进了新一波语言模型的发展，包括 OPT 和 BERT，它们表现出深刻的语言理解能力。此外，GPT（即生成式预训练 Transformer 模型）的出现引入了一种具有自回归建模的新范式，并建立了一种强大的语言预测和生成方法。GPT-4、ChatGPT、Mixtral、LLaMA 等语言模型的出现进一步推动了快速发展，每个模型在涉及复杂语言处理的任务中都表现出了增强的性能。在现有方法中，指令调整已成为改进预训练大型语言模型输出的关键技术，这些模型与用于视觉任务的特定工具的集成凸显了它们的适应性并为未来的应用打开了大门。这些远远超出了传统的基于文本的 LLM 处理，包括多模态交互。

此外，自然语言处理和计算机视觉模型的融合催生了 VLM（视觉语言模型），它将语言模型和视觉模型结合起来，实现跨模态理解和推理能力。视觉和语言模型的融合和出现对推进需要语言处理和视觉理解的任务发挥了至关重要的作用。像 CLIP 这样的革命性模型的出现进一步弥合了视觉任务和语言模型之间的差距，证明了跨模态应用的可行性和实用性。LLaMA 和 BLIP 等较新的框架利用定制的教学数据来设计有效的策略，以展示模型的强大功能。此外，将大型语言模型与图像输出相结合是最近多模态研究的重点，最近的方法能够通过利用图像检索方法来生成图像输出和交错文本，从而绕过直接生成。

在这里插入图片描述

尽管如此，尽管视觉语言模型在促进基本推理和视觉对话方面取得了快速进步，但 GPT-4 等高级模型与视觉语言模型之间仍然存在显著的性能差距。Mini-Gemini 试图通过从三个方面挖掘 VLM 的潜力来缩小视觉语言模型与更高级模型之间的差距：VLM 引导的生成、高质量数据和高分辨率视觉 token。为了增强视觉 token，Mini-Gemini 框架建议在不增加视觉 token 数量的情况下使用额外的视觉编码器进行高分辨率细化。Mini-Gemini 框架进一步构建了高质量的数据集，试图促进对图像的精确理解和基于推理的生成。总体而言，Mini-Gemini 框架试图挖掘视觉语言模型的潜力，旨在同时为现有框架提供图像推理、理解和生成能力。本文旨在深入介绍 Mini-Gemini 框架，并探讨该框架的机制、方法论、架构以及与最先进框架的比较。那么让我们开始吧。

Mini-Gemini：加速多模态 VLM
多年来，大型语言模型不断发展，如今它们拥有卓越的多模态能力，并正在成为当前视觉语言模型的重要组成部分。然而，大型语言模型和视觉语言模型的多模态性能之间存在差距，最近的研究正在寻找使用图像和视频将视觉与大型语言模型相结合的方法。对于视觉任务本身，图像分辨率是明确地将周围环境与视觉幻觉最小化的关键要素。为了弥合这一差距，研究人员正在开发模型来改善当前视觉语言模型中的视觉理解，其中两种最常见的方法是：提高分辨率和增加视觉标记的数量。虽然增加高分辨率图像的视觉标记数量确实可以增强视觉理解，但这种提升往往伴随着计算要求和相关成本的增加，尤其是在处理多幅图像时。此外，现有模型的能力、现有数据的质量和适用性对于加速开发过程仍然不足，这让研究人员不禁要问：“如何以可接受的成本加速视觉语言模型的开发”？

Mini-Gemini 框架试图回答这个问题，它试图从三个方面探索视觉语言模型的潜力：VLM 引导的生成或扩展应用、高质量数据和高分辨率视觉标记。首先，Mini-Gemini 框架实现了 ConvNet 架构，以高效生成更高分辨率的候选，增强视觉细节，同时保持大型语言模型的视觉标记计数。Mini-Gemini 框架合并公开的高质量数据集，试图提高数据质量，并将这些增强功能与最先进的生成和大型语言模型相结合，试图提高 VLM 的性能并改善用户体验。Mini-Gemini 框架实施的多方面策略使其能够探索视觉语言模型的隐藏功能，并在明显的资源限制下取得重大进展。

在这里插入图片描述

总体而言，Mini-Gemini 框架采用了任意到任意范式，因为它能够处理文本和图像作为输入和输出。具体来说，Mini-Gemini 框架引入了一种用于增强输入图像的视觉标记的有效管道，并具有由双编码器组成的双编码器系统：第一个编码器用于高分辨率图像，而第二个编码器用于低质量视觉嵌入。在推理过程中，编码器以注意机制工作，其中低分辨率编码器生成视觉查询，而高分辨率编码器提供键和值以供参考。为了提高数据质量，Mini-Gemini 框架基于公共资源收集和生成更多数据，包括面向任务的指令、与生成相关的数据和高分辨率响应，数量增加和质量提高提高了模型的整体性能和能力。此外，由于视觉语言模型与高级生成模型的集成，Mini-Gemini 框架支持并发文本和图像生成。

Mini-Gemini：方法论和架构
从本质上讲，Mini-Gemini 框架概念很简单，由三个部分组成。
1.该框架采用双视觉编码器来提供低分辨率视觉嵌入和高分辨率候选。
2.该框架提出实施补丁信息挖掘，在低分辨率视觉查询和高分辨率区域之间的补丁级别进行挖掘。
3.Mini-Gemini 框架利用大型语言模型将文本与图像结合起来，同时实现生成和理解。

双视觉编码器
Mini-Gemini 框架可以处理文本和图像输入，可以选择单独处理或组合处理。如下图所示，Mini-Gemini 框架首先采用双线性插值法从相应的高分辨率图像生成低分辨率图像。
在这里插入图片描述

然后，该框架处理这些图像，并将它们编码为两个并行图像流中的多网格视觉嵌入。更具体地说，Mini-Gemini 框架保留了低分辨率流的传统管道，并使用 CLIP 预训练的 Visual Transformer 对视觉嵌入进行编码，从而帮助模型保留视觉块之间的长距离关系，以便在大型语言模型中进行后续交互。对于高分辨率流，Mini-Gemini 框架采用基于 CNN 或卷积神经网络的编码器进行自适应和高效的高分辨率图像处理。

补丁信息挖掘
Mini-Gemini 框架利用双视觉编码器生成 LR 嵌入和 HR 特征，提出实现块信息挖掘，旨在通过增强的视觉标记扩展视觉语言模型的潜力。为了在大型语言模型中保持视觉标记的数量以提高效率，Mini-Gemini 框架以低分辨率视觉嵌入作为查询，旨在从 HR 特征候选中检索相关的视觉线索，框架以 HR 特征图作为键和值。

在这里插入图片描述

如上图所示，该公式概括了对视觉线索进行提炼和合成的过程，从而为后续的大型语言模型处理生成高级视觉标记。该过程确保框架能够将每个查询的挖掘限制在具有像素级特征计数的 HR 特征图中其对应的子区域中，从而提高效率。得益于这种设计，Mini-Gemini 框架能够在不增加视觉标记数量的情况下提取 HR 特征细节，并在计算可行性和细节丰富性之间保持平衡。

文本和图像生成
Mini-Gemini 框架将视觉标记和输入文本标记连接起来作为大型语言模型的输入，进行自回归生成。与传统的视觉语言模型不同，Mini-Gemini 框架支持纯文本以及文本图像生成作为输入和输出，即任意到任意推理，正是这种出色的图像文本理解和推理能力，使 Mini-Gemini 能够生成高质量的图像。与最近的研究关注生成模型的文本嵌入和大型语言模型之间的领域差距不同，Mini-Gemini 框架试图通过将用户指令转换为在潜在扩散模型中产生上下文相关图像的高质量提示来优化语言提示领域的差距。此外，为了更好地理解指令微调和跨模态对齐，Mini-Gemini 框架从公开的高质量数据集中收集样本，并使用 GPT-4 turbo 框架进一步构建 13K 指令跟踪数据集以支持图像生成。

在这里插入图片描述

Mini-Gemini：实验和结果
为了评估其性能，Mini-Gemini 框架使用预训练的 ConvNext-L 框架作为 HR 视觉编码器，使用 CLIP 预训练的Vision Transformer作为 LR 视觉编码器。为了确保训练效率，Mini-Gemini 框架保持两个视觉编码器固定，并在所有阶段优化 patch info mining 的投影仪，并在指令调整阶段优化大型语言模型。
在这里插入图片描述

下表比较了 Mini-Gemini 框架在不同设置下与最先进模型的性能，同时还考虑了私有模型。可以看出，Mini-Gemini 在各种 LLM 中的表现始终优于现有框架，并且在配置 Gemma-2B 时在高效模型类别中表现出色。此外，当使用更大的大型语言模型时，Mini-Gemini 框架的可扩展性显而易见。

在这里插入图片描述

为了评估其在高分辨率和扩展视觉标记上的性能，实验中 LR 视觉编码器的输入大小为 672，视觉编码器的输入大小为 1536。如前所述，HR 视觉编码器的主要目的是提供高分辨率候选信息。可以看出，与最先进的框架相比，Mini-Gemini 框架的性能更出色。

在这里插入图片描述

此外，为了评估 Mini-Gemini 框架在现实环境中的视觉理解能力，开发人员将该模型应用于各种推理和理解任务，如下图所示。可以看出，由于实施了补丁信息挖掘和高质量数据，Mini-Gemini 框架能够解决各种复杂任务。但更令人印象深刻的是，Mini-Gemini 框架展示了对细节的敏锐关注，超越了单纯的识别能力，并精细地描述了复杂的元素。
在这里插入图片描述

在这里插入图片描述

下图对 Mini-Gemini 框架的生成能力进行了全面的评估。
在这里插入图片描述

与 ChatIllusion 和 AnyGPT 等近期模型相比，Mini-Gemini 框架展现出更强大的多模态理解能力，使其能够生成与输入指令更一致的文本到图像字幕，并产生具有更强概念相似度的图像到文本答案。更令人印象深刻的是，Mini-Gemini 框架在仅使用文本训练数据使用多模型人工指令生成高质量内容方面表现出色，这一能力说明了 Mini-Gemini 强大的语义解释和图像文本对齐技能。

在这里插入图片描述

最后的想法
在本文中，我们讨论了 Mini-Gemini，这是一个强大且精简的多模态视觉语言模型框架。Mini-Gemini 框架的主要目标是利用高质量数据、框架的战略设计和扩展的功能范围来发挥视觉语言模型的潜力。Mini-Gemini 试图通过从三个方面挖掘 VLM 的潜力来缩小视觉语言模型与更高级模型之间的差距：VLM 引导的生成、高质量数据和高分辨率视觉标记。为了增强视觉标记，Mini-Gemini 框架建议使用额外的视觉编码器进行高分辨率细化，而不会增加视觉标记的数量。Mini-Gemini 框架进一步构建了一个高质量的数据集，试图促进对图像的精确理解和基于推理的生成。总的来说，Mini-Gemini 框架试图挖掘视觉语言模型的潜力，旨在同时为现有框架提供图像推理、理解和生成能力。
在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

闯江湖50年

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Mini-Gemini：挖掘多模态视觉语言模型的潜力

在本文中，我们讨论了 Mini-Gemini，这是一个强大且精简的多模态视觉语言模型框架。Mini-Gemini 框架的主要目标是利用高质量数据、框架的战略设计和扩展的功能范围来发挥视觉语言模型的潜力。Mini-Gemini 试图通过从三个方面挖掘 VLM 的潜力来缩小视觉语言模型与更高级模型之间的差距：VLM 引导的生成、高质量数据和高分辨率视觉标记。为了增强视觉标记，Mini-Gemini 框架建议使用额外的视觉编码器进行高分辨率细化，而不会增加视觉标记的数量。
复制链接

扫一扫