InternVL 1.5：开源多模态大模型的“黑马”，性能比肩GPT-4V！（开源免费｜可商用）

最新推荐文章于 2025-02-17 15:26:45 发布

技术狂潮AI

最新推荐文章于 2025-02-17 15:26:45 发布

阅读量5.6k

点赞数 24

分类专栏： AI行业资讯 LLM应用实战大模型企业实战文章标签： InternVL 多模态大模型 InternVL-6B

本文链接：https://blog.csdn.net/FrenzyTechAI/article/details/139032587

版权

LLM应用实战同时被 3 个专栏收录

96 篇文章

订阅专栏

大模型企业实战

46 篇文章

订阅专栏

AI行业资讯

22 篇文章

订阅专栏

一、前言

近年来，开源多模态大语言模型(MLLM)成为人工智能领域的热点研究方向。它结合了视觉、语言等多种模态的信息处理能力，以期达到更高层次的智能理解。随着深度学习技术的快速发展，多模态大模型在图像理解、视觉生成、统一视觉模型、LLM加持的多模态大模型以及多模态智能体等方面取得了显著进展。

2023年，多模态大规模语言模型(MM LLMs)取得了新的突破。OpenAI发布了GPT-4v，展示了大模型在视觉领域的巨大潜力。Google I/O大会也发布了其最新的多模态大模型 Gemini，其技术亮点和新特性表明，大模型在视觉领域有了很大的突破，而且就在本周，OpenAI再次发布了新一代多模态大模型 GPT-4o，整体成本只有GPT-4的一半。然而，在开源界，一直未曾推出非常强大的多模态基础模型。

最近，由上海人工智能实验室 (Shanghai AI Laboratory)、商汤科技研究院 (SenseTime Research)、清华大学 (Tsinghua University)、南京大学 (Nanjing University)、复旦大学 (Fudan University) 和香港中文大学 (The Chinese University of Hong Kong) 的研究团队联合推出了新一代书生·视觉大模型(InternVL 1.5)，完全开源免费。

二、关于 InternVL

InternVL 是一款旨在缩小开源和专有商业模型在多模态理解能力上差距的开源多模态大型语言模型。它在多模态理解方面的能力尤为突出，尤其是在处理高分辨率图像和支持多语言能力方面表现出色。InternVL 的核心组件包括一个强大的视觉编码器InternViT-6B和一个语言中间件QLLaMA。

2.1、主要特点

多模态性能提升：InternVL 1.5在OCR、多模态、数学和多轮对话等18个基准测试中的8个中取得了最先进的结果，显示了其在多模态理解方面的卓越性能。
强视觉编码器：模型采用了一种持续学习策略，显著提升了视觉理解能力，并且能够在不同的大型语言模型（LLM）中迁移和重用。
动态高分辨率：InternVL 1.5能够根据输入图像的长宽比和分辨率，动态地将图像划分为不同大小的图块，最高支持4K分辨率的输入。
双语数据集：通过收集和注释高质量的双语数据集，InternVL 1.5在OCR和中文相关任务中表现出色。
ViT-MLP-LLM架构：模型采用了与流行的多模态大模型相似的架构，通过MLP映射器将预训练的视觉编码器与语言模型结合在一起，并通过Pixel Shuffle技巧减少了视觉标记的数量。

2.2、InternVL-6B

InternVL-6B 是一个基于 Transformer 架构的视觉编码器，参数规模达60亿，专为处理复杂的视觉输入而设计。QLLaMA作为语言处理的核心，参数规模为8亿，主要负责处理和生成语言内容，为多模态任务提供语言支持。首次提出了对比 - 生成融合的渐进式对齐技术，实现了视觉大模型与语言大模型在互联网级别数据上的精细对齐。

InternVL-6B 不仅能够处理复杂图片中的细微视觉信息，还能完成图生文任务，识别和解读复杂页面中的信息，甚至解决数理问题。该模型在多个视觉基准测试上取得了最优开源性能，在纯视觉任务和图生文任务上逼近或超过了谷歌的闭源 ViT-22B 模型，并在多模态大模型评测上与 GPT4V、Gemini 等模型竞争相当。

InternVL 在多个视觉-语言基准测试上展示了卓越性能，尤其是在OCR和文档理解方面。它能够有效识别和解释文档图像中的文字，支持零样本学习任务。此外，InternVL还采用了动态高分辨率策略，允许模型根据需要调整分辨率，在计算效率和细节保留之间取得平衡。它还具备强大的多模态对话系统构建能力，能够与现有的大语言模型整合，共同创建功能丰富的多模态对话系统。

2.3、性能表现

从 InternVL 1.5 在多个多模态理解任务上与其他知名的大模型的对比评估结果来看，InternVL 1.5 在大多数测试中都取得了相当不错的成绩，并且在某些任务上甚至超越了 GPT-4 和 Gemini Pro 等闭源模型。

InternVL 1.5 在 TextVQA 和 DocVQA 任务上表现尤为突出，分别取得了 80.5% 和 90.4% 的准确率，显著超过了其他模型。说明 InternVL 1.5 在处理文本和图像相结合的任务，尤其是在阅读理解和文档理解方面具有显著的优势。InternVL 1.5 采用了先进的视觉编码器 InternViT-6B 和语言中间件 QLLaMA，使其能够深入理解图像中的文本信息，并准确回答相关问题。这种强大的多模态理解能力在实际应用中具有广阔的前景，如智能文档处理、信息提取等。

在 ChartQ&A 和 RealWorldQ&A 任务中，InternVL 1.5 也展现出了较强的能力，与其他模型的表现相当。说明 InternVL 1.5 在处理图表和现实世界图像理解方面也具备一定的优势。通过对图像中的元素、结构和语义信息的深入分析，InternVL 1.5能够准确解答与图表和现实场景相关的问题。这对于数据可视化、智能问答等应用领域具有重要意义。

InternVL 1.5 的表现证明了其在多模态理解方面具有强大的能力，并成功地缩小了与闭源模型之间的差距。

OpenCompass 多模态模型基准测试作为评估和比较大型语言模型及多模态模型性能的关键平台，在最近一轮的评测中，开源多模态基础模型InternVL v1.5表现卓越，荣获第三名的佳绩，与OpenAI的GPT-4v不相上下。这个成绩充分展现了 InternVL v1.5 在多模态理解领域的强大实力，无论是在视觉与语言处理任务上的卓越性能，还是在理解和生成多模态内容方面的先进技术，均得到了充分体现。

此外，InternVL v1.5 的研究成果荣获CVPR 2024会议的口头报告资格，这不仅是该领域内极具声誉的认可，也进一步印证了 InternVL v1.5 在学术界及工业界的重要影响力和显著贡献。此类认可标志着开源多模态模型在技术深度与实用性方面已达到一个新的里程碑。

InternVL的发布为开源社区提供了一个强大的多模态大模型，弥补了开源界在这一领域的空白。它在多模态理解、交互以及视觉-语言任务处理方面的突出能力，为推动多模态人工智能的发展做出了重要贡献。InternVL的出现，有望进一步促进开源多模态大模型的发展，推动人工智能技术的进步。

目前，InternVL全系列模型、代码均已开源，并提供Demo试用（文末附链接地址）。

三、技术突破与创新

来自上海人工智能实验室 (Shanghai AI Laboratory)、商汤科技研究院 (SenseTime Research)、清华大学 (Tsinghua University)、南京大学 (Nanjing University)、复旦大学 (Fudan University) 和香港中文大学 (The Chinese University of Hong Kong) 的研究团队推出了 InternVL 1.5，这是一个开源的多语言大型语言模型 (MLLM)，目标在于显著增强开源系统在多模态理解方面的能力。该模型整合了三项主要改进，以缩小开源模型和专有商业模型之间的性能差距。这三个主要部分是：

1）、强视觉编码器：通过为大规模视觉基础模型—— InternViT-6B 探索了一种持续学习策略，增强了其视觉理解能力，使其可以在不同的环境中迁移和重用。

2）、动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为1到40个448×448像素的图块，最高支持4K分辨率输入。

3）、高质量的双语数据集：精心收集了高质量的双语数据集，涵盖常见场景、文档图像，并用英文和中文问答对其进行注释，显著提高了 OCR 和中文相关任务的性能。

这三个步骤显著提升了模型在光学字符识别（OCR）和中文相关任务中的性能。这些增强功能使 InternVL 1.5 能够在各种基准测试和比较研究中进行强有力的竞争，也展示了它在多模态任务中的改进效果。InternVL 1.5 采用了一种分段式方法来处理图像，允许它通过将图像分割成 448×448 像素的瓦片来处理高达 4K 分辨率的图像，并根据图像的长宽比和分辨率动态调整。这种方法提高了图像理解能力，并有助于理解详细的场景和文档。模型的语言能力得到增强，源于其在包含英文和中文的多样化数据集上的训练，涵盖了各种场景和文档类型，这提升了其在跨语言的OCR和基于文本的任务中的性能。

语言模型与视觉模型各自取得了显著的发展和突破。然而，如何实现语言模型的视觉理解能力，或赋予视觉模型以语言表述的能力，是当前研究中的一大挑战。为了将视觉模型与语言模型有效结合，需要一种类似“胶水”的机制来连接这两种类型的模型。例如，通过使用QFormer或线性投影等轻量级的“胶水”层，可以构建出视觉-语言模型，如InstructBLIP和LLaVA。然而，这些方法存在一定的局限性。

现有对齐策略的局限性主要体现在以下几个方面：

参数规模的不一致：大型语言模型（LLM）的参数规模已经达到1000亿，而广泛使用的视觉-语言大型模型（VLLM）的视觉编码器参数规模通常在10亿左右。这种参数规模上的巨大差异可能导致LLM的潜力未能得到充分利用。
特征表示的不一致：在纯视觉数据上训练的视觉模型，或者与BERT系列模型对齐的模型，往往在特征表示上与LLM存在不一致性。
连接效率低下：“胶水”层通常是轻量级的，并且是随机初始化的，可能无法捕捉到多模态理解和生成所需的丰富跨模态交互和依赖关系。

为了克服这些局限性，InternVL引入全新的对齐策略，InternVL 模型首次提出了对比-生成融合的渐进式对齐技术，这一技术在互联网规模的数据上实现了视觉大型模型与语言大型模型之间的精准对齐。

在InternVL的训练过程中，采用了全新的渐进式对齐策略。该策略从海量且带有噪声的数据的对比学习入手，逐步过渡到高质量数据的生成式学习，有效地实现了视觉编码器与语言模型之间的深度融合，同时最大化了数据的使用效率，从而赋予了InternVL在多模态任务中的强劲能力。

InternVL通过灵活地结合视觉编码器与语言中间件，能够支持多样化的视觉及视觉-语言任务，其多功能性堪比“瑞士军刀”。

对于视觉感知任务，InternVL的视觉编码器InternViT-6B可以直接作为骨干网络，它不仅能够有效补充传统的ViT（Vision Transformer）和深度残差网络（ResNet），还能作为它们的替代方案。

在跨模态检索任务中，InternVL可以通过InternViT-6B的视觉特征或QLLaMA的查询特征执行各种对比检索任务，它作为CLIP模型的有力补充，提供了额外的性能优势。得益于模型参数量的增加，QLLaMA在生成任务中展现出更强的图像字幕能力，并且能够对InternViT-6B的视觉表示进行重新组织，以实现多模态内容的生成。

四、模型性能与应用

InternVL 1.5模型在多项基准测试中展现了其卓越的性能，特别是在光学字符识别（OCR）相关数据集和双语场景理解任务上的成绩尤为突出。与早期版本相比，InternVL 1.5实现了显著的性能提升，并在若干特定测试中超越了一些商业模型。具体而言，该模型在基于文本的视觉问答任务中达到了80.6%的准确率，在基于文档的问答任务中更是达到了90.9%的准确率，这一成绩令人印象深刻。在涉及视觉与文本理解的多模态基准测试中，InternVL 1.5持续提供了具有竞争力的结果，不仅经常超越其他开源模型，而且能够与商业模型相提并论。

总体而言，InternVL 1.5成功应对了开源多模态大型语言模型在处理高分辨率图像和支持多语言能力方面的重大挑战。该模型通过采用强大的视觉编码器、动态分辨率适配技术，以及全面双语数据集的整合，显著地缩小了与商业模型之间的性能差距。InternVL 1.5在OCR相关任务和双语场景理解中的杰出表现，证明了其增强后的能力，确立了其在先进人工智能系统中作为有力竞争者的地位。

五、多模态能力演示

5.1、OCR 识别文本内容

在很多图文识别的场景，用以前传统的解决方案很在诸多局限性，而且很多需求的开发实现难度很大，尤其对于中小企业，缺乏专业的算法团队，且OCR在开源界除了百度的 PaddleOCR 属于优选之外，很难找到一些合适的基础模型来做训练，百度开源的百度本身的模型太重，性能方面页需要自己来优化，比如下面这个文书原来我们主要识别的文书标题对卷宗做进一步处理，再进一步可以提取文书中的关键要素信息，再进一步比如识别表格，图片，包括签名和公章就比较困难了。

把这张文书丢给 InternVL 模型，让其识别文书的内容并转换为JSON格式输出，从模型输出的结果可以看到结果基本上还是比较准确的，如果需要更加精确的结果，就需要做进一步的微调了。（PS：找官方确认了一下，因为对于这类材料的训练数据较少，还需要进一步优化补充）

输出结果：

5.2、复杂图像内容理解

InternVL-6B 能够进行复杂图像内容理解，它不仅能识别图像中的物体，还能理解物体之间的关系、场景的上下文以及图像的深层含义。例如，它能够识别场景类型、推断上下文信息、识别情感和意图，以及理解文本与图像之间的关联。 InternVL-6B 在处理遮挡、光照变化和视角差异等方面也具备鲁棒性，使其在图像检索、自动化监控、辅助驾驶和医疗诊断等领域展现出巨大潜力。

这里我们上传了一张飞机性能的总体趋势图，InternVL 还是可以比较准确的理解图片的意思，很清晰的将结果准确的表达出来。

InternVL 虽然在多模态领域取得了显著的进展，并在众多场景中展现出了优异的性能，但仍面临着一系列挑战，这些挑战指向了模型的改进方向。目前，InternVL 在以下几个方面存在一定的局限性，需要进一步的优化：

数据训练不足的场景理解：在某些特定的数据场景中，由于训练样本不足或者数据分布与训练集不匹配，InternVL 可能无法充分理解和处理这些内容。这种情况尤其在新颖或者高度专业化的领域中更为常见。
图片中的复杂元素识别：对于图片中包含的表格、二维码、签章等复杂元素，InternVL 的识别能力仍有限。这些元素通常涉及到结构化信息的提取和解读，对算法的识别精度和理解深度提出了更高的要求。
处理重复问题：在实际应用中，用户可能会反复提出相似或完全相同的问题。InternVL 需要更好地理解这种重复性，以提供更加精准和个性化的回答，避免不必要的冗余。

为了克服这些挑战，未来的工作可能会集中在以下几个方面：

增强数据集的多样性：通过收集更广泛的数据集，特别是那些目前训练不足的领域数据，以提高模型在各种场景下的泛化能力。
优化复杂元素的处理机制：开发更高效的算法来处理图片中的结构化信息，如表格、二维码和签章等，以提升模型在复杂图像理解方面的能力。
强化对话管理：改进对话管理模块，使其能够更好地处理重复问题，提供更加智能和个性化的交互体验。

通过这些改进，InternVL 有望在未来版本中提供更加完善和智能的多模态解决方案，从而在更广泛的应用场景中发挥其强大的能力。

六、总结

InternVL 1.5 是一款开源的多模态大型语言模型，它在处理高分辨率图像和支持多语言方面取得了显著进展。该模型通过强大的视觉编码器和动态分辨率适配技术，以及整合全面的双语数据集，缩小了与商业模型之间的性能差距。在 OCR 相关任务和双语场景理解中，InternVL 1.5 展现了其增强后的能力，成为了先进人工智能系统中的有力竞争者。

最后还强调了开源多模态大语言模型（MLLM）在提升性能、多语言支持、易用性和可访问性方面的优势，特别提到了上海人工智能实验室与合作伙伴共同开源的 InternVL-6B 模型。该模型在技术上实现了视觉编码器参数的突破，并通过创新的对比 - 生成融合的渐进式对齐技术，提升了多模态任务的处理能力。InternVL-6B 模型的开源发布，为全球 AI 社区提供了一个强大的工具，并在多个视觉基准测试中展现了优异的表现。

参考资源：