【本地部署教程】Qwen2.5-VL 阿里最新开源最强的开源视觉大模型，支持视频！

最新推荐文章于 2025-04-15 23:37:08 发布

MarkGosling

最新推荐文章于 2025-04-15 23:37:08 发布

阅读量7.9k

点赞数 64

分类专栏：开源项目文章标签：计算机视觉人工智能语言模型自然语言处理开源阿里云

本文链接：https://blog.csdn.net/qq_34598061/article/details/145647930

版权

简介

Qwen2.5-VL，Qwen 模型家族的旗舰视觉语言模型，对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-Instruct 进行体验。此外，阿里在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型，包含 3B、7B 和 72B 在内的 3 个模型尺寸。

Qwen2.5-VL 的主要特点如下所示：

感知更丰富的世界：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。
Agent：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。
理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。
结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

模型性能

通过对视觉语言模型进行了全面的评估，比较了 SOTA 模型以及同尺寸规模模型中表现最好的模型。在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中，它在一系列涵盖多个领域和任务的基准测试中表现出色，包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。值得注意的是，Qwen2.5-VL 在理解文档和图表方面具有显著优势，并且能够作为视觉 Agent 进行操作，而无需特定任务的微调。

在较小的模型方面，Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini，而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股，甚至超越了之前版本 Qwen2-VL 的 7B 模型。

模型能力案例

1. 万物识别

Qwen2.5-VL 显著增强了其通用图像识别能力，大幅扩大了可识别的图像类别量级。不仅包括植物、动物、著名山川的地标，还包括影视作品中的 IP，以及各种各样的商品。

用户：这些景点是什么？请用中文和英文说出他们的名字。

Qwen2.5-VL
这些景点是：
1. 左上角: The Great Pyramids of Giza (埃及的吉萨大金字塔)
2. 右上角: The Great Wall of China (中国的长城)
3. 左下角: The Statue of Liberty (美国的自由女神像)
4. 右下角: The Terracotta Army (中国的秦始皇兵马俑)

2. 精准的视觉定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位，可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。

用户：检测图像中的所有摩托车手，

最低0.47元/天解锁文章