突破视觉理解极限，Qwen2-VL重磅登场

OpenCSG

已于 2024-09-04 21:19:46 修改

阅读量1k

点赞数 19

文章标签：大模型人工智能

于 2024-09-04 21:06:50 首次发布

本文链接：https://blog.csdn.net/OpenCSG/article/details/141903410

版权

前沿科技速递🚀

经过近一年的持续努力，Qwen团队宣布推出最新一代的视觉语言模型：Qwen2-VL。基于Qwen2的基础，Qwen2-VL在多个方面实现了显著提升，相较于前代模型Qwen-VL，它具备以下核心优势：

1. 适应不同分辨率与长宽比的图片：Qwen2-VL在MathVista、DocVQA、RealWorldQA、MTVQA等多个视觉理解基准测试中展现了全球领先的表现。无论是高分辨率还是非标准长宽比的图片，Qwen2-VL都能轻松读懂。

2. 支持长达20分钟以上的视频理解：Qwen2-VL不仅可以理解长视频，还能应用于基于视频的问答、对话和内容创作等多种场景，使其在处理复杂多媒体内容时表现卓越。

3. 操作智能设备：Qwen2-VL的复杂推理与决策能力使其能够作为手机或机器人等设备的视觉智能体，根据视觉环境和文字指令进行自动化操作。

4. 多语言支持：为了更好地服务全球用户，Qwen2-VL不仅支持英语和中文，还新增了对大多数欧洲语言、日语、韩语、阿拉伯语、越南语等多语言文本的理解能力。

来源：传神社区

01 模型开源与性能表现

Qwen团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B，同时发布了Qwen2-VL-72B的API。开源代码已集成到Hugging Face Transformers、vLLM和其他第三方框架中，为开发者提供了便捷的使用体验。

在六个关键指标上，Qwen2-VL展现了卓越的视觉能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解及智能代理功能。尤其是在文档理解方面，Qwen2-VL-72B表现尤为出色，超过了GPT-4o和Claude3.5-Sonnet等闭源模型。尽管在综合大学题目方面还有一定差距，Qwen2-VL-72B依然刷新了开源多模态模型的最佳记录。

在 7B 规模上，同样支持图像、多图、视频的输入，在更经济的规模上也实现了有竞争力的性能表现，特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。

除此之外，Qwen团队还提供了一个更小的 2B 规模的模型，以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力，性能强劲，特别在视频文档和通用场景问答相较同规模模型优势明显。

02 模型架构的创新

Qwen2-VL延续了Qwen-VL中的ViT加Qwen2的串联结构，并在架构上进行了重要升级：

1. 原生动态分辨率支持Qwen2-VL能够处理任意分辨率的图像输入，并将不同大小的图片转换为动态数量的tokens。这种设计确保了输入与图像原始信息之间的高度一致性，模拟了人类视觉感知的自然方式。

2. 多模态旋转位置嵌入（M-ROPE）Qwen2-VL通过多模态旋转位置嵌入，将原始旋转嵌入分解为时间、高度和宽度三个部分，使其能够同时捕捉和整合一维文本序列、二维视觉图像及三维视频的位置信息，从而更好地处理和推理复杂的多模态数据。

03 典型示例

1. 更细致的识别与理解Qwen2-VL不仅能识别植物和地标，还能理解场景中多个对象之间的关系。特别是在手写文字及多语言图像识别方面，Qwen2-VL在全球范围内更为易用。

Example: Plant identification

2. 视觉推理与现实问题解决Qwen2-VL的数学与编程能力得到了显著增强。通过分析图片，Qwen2-VL能够解读复杂的数学问题，进行图表分析，甚至极端长宽比的图片也能正确解析。它还可以从真实世界的图像和图表中提取信息，使其成为日常生活中的智能助手。

Example: Math

3. 视频理解与实时聊天Qwen2-VL扩展了视频内容分析的能力，能够总结视频要点、即时回答相关问题，并维持连贯的对话，仿佛一位随时待命的个人助手，为用户提供更加直观且即时的帮助。

Example: Video Understanding

space_woaudio

4. Visual Agent 能力Qwen2-VL展示了作为视觉代理的潜力，初步具备了利用视觉能力进行工具调用与交互的功能。通过函数调用，Qwen2-VL能够实时检索数据，如航班状态、天气预报和包裹追踪等，将视觉解读与功能执行有机结合，成为信息管理和决策的有力工具。

Function Calling:模型支持函数调用，使其能够利用外部工具进行实时数据检索——无论是航班状态、天气预报还是包裹追踪——通过解读视觉线索。视觉解读与功能执行的整合提升了模型的实用性，使其成为信息管理和决策的有力工具。
Visual Interactions: 视觉交互对多模态大模型是更高的感知能力要求。我们初步做了一些简单的探索，让模型能够更像人一样和环境交互。使得 Qwen2-VL 不仅作为观察者，而是能有代替人做更多的执行者的可能。

Operate a Mobile Phone

04 模型下载

传神社区：

Qwen2-VL-2B-Instruct：

https://opencsg.com/models/Qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct：

https://opencsg.com/models/Qwen/Qwen2-VL-7B-Instruct

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页