宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。
起因是网友在X上吐槽大模型宝可梦玩得不够好,结果被大神Karpathy翻了牌子:
别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。
结果Karpathy的话引发了大量围观,有人表示惊讶,也有人在分析原因,还有人表示那句经典的话含金量还在上升:
对人类而言很简单的任务,对机器来说反而很难;对人类而言难的任务,对机器来说反而简单。
不过也有人表示不服,其中就包括OpenAI的Noam Brown,他表示让o3玩井字棋完全没问题,甚至还能看图下棋。
大模型挑战井字棋
我们也尝试了一下,用不同的方式和o3对战。
第一种方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局输入给o3,并要求其用同样的方式输出。
思考约12秒之后,o3首先占据了棋盘中央的位置,我们落子之后,o3又思考了23秒,放置了第二颗X棋子。
接下来的两个回合情况是这样,其实当o3占据对角线上两个位置的时候就已经锁定了胜局。
不过有意思的是,直到已经连成一条线,o3都没发现自己已经赢了。
由于没有提示,我们误以为游戏还在继续,又放了一颗O旗之后o3才发现原来自己获胜了。
第二轮,交换先后手,我们先占据中间位置,然后o3选择了顶角……
最终,这轮游戏以平局结束。
接下来换一种方式,仿照Noam的做法把残局写在纸上拍给o3。
一开始看上去是在正常对弈,并且会以平局收场,但如果让o3自己分析接下来的趋势,竟然发现它开启了耍赖模式。
当然,在纠正了它的错误认识后,最终还是成功分析出了平局的必然结果。
顺便提一句,如果是4o,过程中可能会直接把我们下棋之后的棋局复制一遍,看到这就没有继续进行下去的必要了。
(之所以改用感叹号,是因为-会被识别成Markdown符号导致棋局无法正常显示,且在4o中Markdown关闭失败)
实际上,OpenAI在之前的o3-mini时,就已经拿下了井字棋游戏,Noam还声称这是首个“始终正确回答”井字棋问题的模型。
在Karpathy的评论区,还有人晒图称Gemini也能正确处理井字棋问题。
今年2月,还有人搞了个大模型井字棋对战,并按照大模型竞技场一样计算ELO评分,当时o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。
Karpathy也cue到了这位网友,希望他能重启这个榜单,同时表示自己认为井字棋(对大模型而言)仍然是一个较难的任务。
宝可梦·蓝全部徽章被Gemini拿下
看完井字棋,再来说说引发Karpathy评论的原帖中提到的宝可梦。
之前很多民间团队都在尝试用大模型挑战宝可梦游戏,今年被Claude带火。
甚至还搞了线上直播。
不过现在的最新情况是,Claude已经被后来居上的Gemini反超——后者已经取得了《宝可梦·红》中的几乎所有勋章。
同时,从OpenAI跳槽到谷歌做AI Studio产品负责人的Logan Kilpatrick也宣称,Gemini在另一款宝可梦游戏《宝可梦·蓝》当中已经取得了最后的八个徽章。
按照Logan的说法,Gemini 2.5 Pro目前是世界上(玩宝可梦)最强的模型。
当然除了通用模型,还有团队用强化学习方法训练小模型专门挑战《宝可梦·红》。
团队介绍,其研究在2020年就已经开始,并在今年2月成功用参数量不到1000万的模型成功实现。
学术界当中,也有来自佐治亚理工学院的华人学者利用上下文强化学习技术,研发出了“宝可梦智能体”。
它可以在天梯对战中与人类玩家一较高下,对战专业玩家胜率达到了56%。
宝可梦、井字棋之后,下一个会被大模型当做Benchmark的游戏会是什么呢?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。