Qwen 发布 Qwen2.5-VL-32B 模型：更智能、更轻便

本文链接：https://blog.csdn.net/llm_way/article/details/146553297

近期Qwen 团队重磅推出了 Qwen2.5-VL-32B 模型，这一全新模型凭借其在智能程度与模型体量上的卓越表现，迅速吸引了全球 AI 研究者、开发者以及相关行业的广泛关注。它不仅代表着 Qwen 系列模型的重大突破，更为多模态人工智能的发展开辟了新的路径。

一、Qwen 系列模型发展历程回顾

Qwen 系列模型自诞生起，便在人工智能领域崭露头角。其前身 Qwen2.5 VL 于 2024 年 1 月发布，当时推出了 3B、7B 和 72B 三种尺寸的模型版本。这些早期版本已经展现出了强大的视觉语言处理能力，以通义千问 70 亿参数模型 Qwen-7b 为基座语言模型进行研发，支持图文输入。相较于当时业界的一些同类 VL 模型，Qwen2.5 VL 除了具备基础的图文识别、描述、问答及对话能力外，还创新性地新增了视觉定位、图像中文字理解等能力，在知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等多个场景中得到了广泛应用，并在多个权威测评中取得了优异成绩。例如在 mmmu、mathvista 等测评中，Qwen2.5 VL 的升级版模型 qwen-vl-plus 和 qwen-vl-max 远超业界所有开源模型，在文档分析（docvqa）、中文图像相关（mm-bench-cn）等任务上甚至超越了 gpt-4v，达到了当时世界最佳水平。其能够准确描述和识别图片信息，进行信息推理、扩展创作，具备的视觉定位能力可针对画面指定区域进行问答，在视觉推理方面能理解流程图等复杂形式图片，分析复杂图标，还能