o1多模态推理终于有了“开源版本”,阿里云通义QVQ一夜爆火

这是我第一次,因为一个大模型的名字和头像,而对其印象深刻。

它的头像长这样——

看图猜 3 个字母

它的名字长这样——

看图猜 3 个字母

一向严肃的大模型赛道开始变得画风活泼了起来…

这个画风奇特的模型,就是阿里云通义团队刚发布的“开源版多模态推理模型”——QVQ,全名是 QVQ-72B-Preview,为视觉推理而生。

QVQ 一经发布,就直接在 Twitter 上火了——

大量歪果网友也在刷屏秀 QVQ 跑出来的有趣 case——

比如发布当天正值圣诞节,外国小哥扮成圣诞老人让 QVQ 猜,一下子就猜出了扮演的是 Santa。

还有一网友发了一张纽约地铁的图片,询问去唐人街要不要下车,QVQ 一顿推理后决定下车。

非常多脑洞大开的测试 case。这里就不一一列举了。

老规矩,在开始介绍之前,先贴传送门——

Modelscope 开源地址:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
Modelscope 创空间体验:
https://modelscope.cn/studios/Qwen/QVQ-72B-Preview
HuggingFace 开源地址:
https://huggingface.co/Qwen/QVQ-72B-Preview
HuggingFace Space 体验:
https://huggingface.co/spaces/Qwen/QVQ-72B-preview

一句话介绍 QVQ,V 代表 Vision,是一个能“看图思考”的大模型,能力对标满血版 o1。

它基于图像 + 指令进行思考、反思和深度推理,理论上,它不仅能精准捕捉视觉内容的细节,还能像人类一样展开深度推理,甚至敢于怀疑自己的初步假设,逐步审视每一步推理过程,最终给出经过深思熟虑的答案。

从官方的介绍来看,QVQ 非常擅长解决数学、物理、化学等学科难题。

当然,了解咱们小瑶测评风格的小伙伴肯定知道,本文肯定不会就出几道数理化题这样简单。

QVQ 模型的水平,大家可以通过这张表来简单感受——

MMMU 这个评测是考察模型视觉理解与推理能力的,这里虽然 QVQ 低于 OpenAI 的 o1 (77.3) ,但已经与 Claude3.5 (70.4) 不相上下,远超上一代视觉模型 Qwen2-VL (64.5) 。说明 QVQ 确实在视觉理解和推理方面有了跨越式的能力提升。

比较亮眼的是数学视觉推理测试 MathVista,QVQ 以 71.4 分的成绩略微领先于 o1 满血版的 71.0 分,作为一个开源模型,能直接跟闭源领先模型打平,属实是非常牛逼的。

划个重点:

  • 首个多模态推理的开源模型

  • 数学、物理、科学等领域表现尤为突出

  • 超越了此前的视觉理解模型「开源王者」Qwen2-VL

  • MathVista 中击败了 OpenAI-o1,GPT-4o 和 Claude3.5

不过,纯看榜单总让人觉得不够直观。所以,咱们还是老规矩——

用足够暴躁的 case 测试来击溃 QVQ 的心理防线!

开屏暴击:数鹈鹕

首先,你别跟我说你不知道鹈鹕是什么。

给个提示,万物皆可吞的那位。

所以,你是不是以为,本文数鹈鹕的题目长这样(ps,实际上这张图来自于 Simon Willison,没错,这位大佬第一时间就测了 QVQ)——

这里补充说明一下,为什么要测大模型数动物?这是因为照片中的动物可能姿态万千,还有光影、遮挡等各种因素影响,准确识别是对 AI “视觉理解”能力的真正考验。

这么简单的题,太无趣了,根本不符合本公众号的测评观。不信你看,丢给 QVQ 直接秒杀。

真实的题目长这样——

这张测试图是来自一个推特网友,我们整个编辑部都被这张图恶心到了——

我们 4 个人数出来了 4 个不同的答案!最少的说 15 只,最多的一个说 19 只。

我一直diss 19只的那位,她把正上方的鸽子当鹈鹕,她就不听

然后我们 4 个人争吵了 10 分钟,谁也不服谁。。。

看 QVQ 的回答——

QVQ 说是 17 只。

反正我们编辑部是无法提供标准答案了,靠评论区各位了。

你以为数鹈鹕这就结束了?

no,我们编辑部一位闲的**的小伙伴,不知道从哪里搞来这么一张图,非要我加测一下——

这简直把我恶心哭了。

我是不准备数了,我反手就拿去恶心 QVQ 了。

果然,直接把 QVQ 也恶心坏了,我等了 10 分钟,他还在数。我觉得我这样做太没人性了,于是我就点了 STOP 按钮。

咱们还是来点正常的测试题吧。

一道物理题

先说答案:

(1)E=100V

(2)P=571.2W

来看看 QVQ 的回答——

QVQ 回答正确!

一道数学题

再来一道很正常的数学题(尽管我做不出来)。

答案是6:4

看看 QVQ 能否做对——

果然稳!

好了,数学物理测试到此为止。

接下来还是搞点更恶心的题目。

真·视觉计算 + 推理

这道题就非常考验一个 AI 的眼睛和脑子是否能很好的打配合——

输入:估计充气玩具的高度

来看看 QVQ 的回答——

在思考过程中,QVQ 先是假设男人的身高是 1.7 米,大约是充气玩具高度的 1/3 到 1/4。后来发现男人是坐在玩具背上,又改成了 2 倍——

这个推理过程还是蛮有意思的,QVQ 真的有一种在一边思考,一边回头反复去看图的感觉。很像人的视觉推理过程。

QVQ 的回答也跟我自己笔算的差不多,不错!

一道据说目前只有 QVQ 做对的题

要说真正能体现 QVQ 视觉推理能力的,我觉得是这位 Twitter 网友的测试题——

在这道题上,网友号称包括 o1 Pro 在内的任何大模型都翻车了。

而 QVQ 做对了。

一起来看下这道神奇的题目——

如果不看答案,能做对的话,说明至少智商达到 250 以上了。

看下 QVQ 的回答——

如果你带着 QVQ 的答案“2,4,6”再回去看题目的话,就瞬间感觉嗯嗯嗯了。

送命题

最后,我决定用一道送命题来结束这场测试——

输入:看图猜模型名

看看 QVQ 能不能认出来自己的名字!

虽然没完全猜对,但让我很惊讶的是——

它竟然根据推理,猜出来了这是一个视觉模型。

最近有国内大佬曾说,国内大模型就看两家公司,阿里云通义就是其中之一。我今天测下来,才感知到这句话的意思。

我还记得,阿里云通义一个月前开源的类 o1 推理模型 QwQ 一发布就登上了 HuggingFace 模型趋势榜榜首,受到全球开发者的刷屏&下载。这个强化升级版的 QVQ 模型,在落地场景上要比纯文本的 QwQ 丰富太多,说是目前 o1 满血版的最强开源平替也毫不过分。

我刚查了下,现在通义千问 Qwen 在 HF 上的相关模型数已经突破 8.8 万了。

这是什么概念?

曾经的开源霸主 Llama 的相关模型数仅有 8.1 万。

Qwen 已超越 Llama 成为全球规模最大的 AI 模型群。

无论是模型表现还是在开发者心中的影响力,Qwen 都创造了历史。

中国开源大模型,牛逼。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值