Qwen 系列又推出了两款令人瞩目的新模型:Qwen 2.5 VL 和 Qwen 2.5 Max。
如果还停留在“DeepSeek 是最强”那一档,就可能要重新考虑一下,因为这两款模型的实力相当惊艳。
什么是 Qwen 2.5 VL?
先从 Qwen 2.5 VL 说起。它不仅能看图识物,还能理解视频、文本,具备执行电脑操作(agentic)的能力,甚至能做物体检测等。
Qwen 2.5 VL 的核心特性
- 高级视觉理解
-
不只是识别常见物体(鲜花、鸟类等),还能处理复杂视觉元素,如图表、图标、排版布局等。
-
能理解图像中的空间结构和文字内容,分析文档或图形信息时更得力。
- Agentic 能力
-
可视为一个“视觉代理”,可以进行推理、执行命令、和工具动态交互。
-
能在电脑或手机等数字设备上自动化操作,无需对特定任务做额外微调。
- 长视频理解
-
能处理超过一小时的视频,并分段提取关键片段。
-
提供二级精度的事件定位,对总结和信息提取非常有用。
- 视觉定位
-
能识别图像中的物体,并输出精确的边界框或关键点。
-
还能生成稳定的 JSON 结果用于描述对象属性,方便结构化分析。
- 结构化输出
-
可将扫描文件、发票、表单等转化为可读的数字数据,方便在金融和商务场景下使用。
-
自动化数据抽取,让处理文档更高效并保持高准确度。
- 强大的图像识别
-
拥有非常广泛的识别能力,从地标、动物、植物到流行文化元素都能辨识。
-
可以对多类别图像进行识别和分类,适合检索和分类等应用。
- 增强的文本与文档解析
-
OCR(光学字符识别)能力更强,多语言、多方向、多场景都能处理。
-
引入 QwenVL HTML 格式,能从杂志、论文、网页中提取复杂的布局结构。
- 强化视频处理
-
采用动态帧率训练及绝对时间编码,能精准把握时间信息。
-
在长视频场景下的场景识别、事件提取和摘要能力更上一层楼。
- 性能优化
-
Vision Transformer(ViT)中采用 Window Attention,保持精度同时减少计算量。
-
使用 RMSNorm、SwiGLU 等结构,使得它与 LLM 架构更好对齐。
- 多规格模型可选
-
提供 3B、7B、72B 三种大小,面向不同的硬件与应用需求。
-
同时在 Hugging Face、ModelScope 开源,基础版与指令版都有。
接下来是 Qwen 2.5 Max
Qwen2.5 Max 则是另一款大杀器。下面简单介绍它的核心功能。
Qwen 2.5 Max 的主要特点
- 大规模 MoE(Mixture-of-Experts)模型
-
采用专家混合架构,实现更高效的扩展性。
-
预训练超过 20 万亿令牌(tokens),知识覆盖面极广。
- 强化的后期训练
-
使用 SFT(Supervised Fine-Tuning)进行更好的任务定向调优。
-
通过人类反馈强化学习(RLHF)进一步对齐用户偏好。
- 基准表现
-
在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 等测试上超越 DeepSeek V3。
-
在 MMLU-Pro(大学水平知识测评)上也保持领先或具备竞争力。
- 与主流模型对比
-
在对话与编程任务上,可与 GPT-4o、Claude-3.5-Sonnet 等商业模型一较高下。
-
底层模型能力胜过同样开源的 DeepSeek V3 与 Llama-3.1–405B。
- API 与 OpenAI 兼容
-
可以通过阿里云(Alibaba Cloud)访问,并且兼容 OpenAI-API,使用方便。
-
轻松在 Python 或其他 OpenAI 支持的框架中集成。
总之,看得出来 Qwen 在下一盘大棋!
如何使用 Qwen 2.5 VL 与 Qwen 2.5 Max?
对于想尝鲜或在项目中集成这两款新模型,主要途径大致有:
-
开源平台:可以到 Hugging Face、ModelScope 等处找到对应仓库,下载基础版(Base)或指令版(Instruct)模型。
-
云端服务:阿里云已提供官方 API,并支持与 OpenAI 兼容的方式接入。只要你熟悉 Python 或 OpenAI SDK,就能快速上手。
-
本地部署(硬件允许的话):如果在本地有足够算力,可以下载合适大小的模型自行部署,用于敏感数据处理或离线场景。
从视觉理解到大规模推理,Qwen 2.5 VL 与 Qwen 2.5 Max 都彰显了下一个阶段的模型实力。对需要极致性能或全能 AI 方案的人来说,确实值得一试。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。