VLMEvalKit 评测实践:InternVL2 VS Qwen2VL

最新推荐文章于 2025-03-27 01:09:19 发布

小洛~·~

最新推荐文章于 2025-03-27 01:09:19 发布

阅读量3.5k

点赞数 22

文章标签：人工智能学习

本文链接：https://blog.csdn.net/m0_55303420/article/details/142306117

版权

在这里插入图片描述

一、InternVL2简介

InternVL2是由上海人工智能实验室OpenGVLab发布的一款多模态大模型，其中文名称为“书生·万象”。该模型在多学科问答（MMMU）任务上表现出色，成为国内首个在该任务上性能突破60的模型，被誉为开源多模态大模型性能的新标杆。

在这里插入图片描述

InternVL2主要功能

InternVL 2.0 具有各种指令调整模型，范围从 10 亿到 1080 亿个参数。与最先进的开源多模态大型语言模型相比，InternVL 2.0 超越了大多数开源模型。它在各种功能上展示了与专有商业模式相当的竞争性能，包括文档和图表理解、信息图表 QA、场景文本理解和 OCR 任务、科学和数学问题解决，以及文化理解和集成多模式功能。
在这里插入图片描述

InternVL 2.0 使用 8k 上下文窗口进行训练，并利用由长文本、多张图像、医疗数据和视频组成的训练数据，与 InternVL 1.5 相比，它显着提高了处理这些类型输入的能力。
在这里插入图片描述

如图所示，InternVL2 采用与 InternVL 1.5 相同的架构，特别是各种现有研究中引用的 ViT-MLP-LLM 配置。

InternVL2模型在多个基准测试中表现优异，例如在中文多模态大模型SuperCLUE-V基准测试中，InternVL2-40B模型获得了70.59分，排名第二。这表明该模型在处理多模态数据和跨学科问题方面具有较高的能力。

其使用方法可以参考：Welcome to InternVL’s tutorials! — internvl

二、Qwen2VL简介

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态A!模型，具备高级图像和视频理解能力。Qwen2-VL支持多种语言，能处理不同分辨率和长宽比的图片，实时分析动态视频内容。Qwen2-VL在多语言文本理解、文档理解等任务上表现卓越，适用于多模态应用开发，推动了AI在视觉理解和内容生成领域的进步。
在这里插入图片描述

Qwen2-VL主要增强功能

SoTA 理解各种分辨率和比例的图像：Qwen2-VL 在视觉理解基准上实现了先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
理解20分钟以上的视频：借助在线流媒体功能，Qwen2-VL可以通过基于高质量视频的问答、对话、内容创作等来理解20分钟以上的视频。
可以操作手机、机器人等的智能体：Qwen2-VL具有复杂的推理和决策能力，可以与手机、机器人等设备集成，基于视觉环境和文本指令进行自动操作。
多语言支持：为了服务全球用户，除了英语和中文之外，Qwen2-VL现在支持图像内不同语言文本的理解，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，并发布了 Qwen2-VL-72B 的 API。开源代码已集成到 Hugging Face Transformers