第一部分:序幕与背景
(1)AI 领域的又一次震荡
在最近的众多 AI 消息中,有一则公告格外引人瞩目——一家著名的实验室宣称其新型模型 o3 在多个“高智力”难题基准上取得了突破式进展,其中既包含被视为超难数学测试的 Frontier Math,也涵盖了长期以来被誉为“检验人工通用推理水准”的 Abstraction and Reasoning Corpus(ARC)。一时间,无论是学术界还是工业界都在热议:这是否意味着对抽象推理的机器化探索已经取得决定性胜利?又或许,这更像是一种借助大量推理时资源和搜索策略而“巧妙蒙对”答案的方式?
ARC 作为一个特别的难题集,从它诞生之初起便带有一股“以极简示例考验机器类比、归纳、抽象能力”的强烈意图。它与传统大规模数据训练、海量标注、依赖统计模式识别的任务截然不同,而更贴近人类在面对全新情境时如何迅速理解并应用新概念的过程。ARC 给了研究者们一个平台去检验:人工智能能否像人那般利用基本直觉与核心知识,在少量示例中洞悉抽象变换规律并加以迁移。
然而,一直以来,绝大部分算法在 ARC 的表现都不甚理想。既便 AI 在图像识别、语言理解、机器人控制等领域持续演进,却在 ARC 上屡屡折戟。前几年比赛中的最高得分仅在 30%–35% 左右徘徊,与人类约 85% 的水平差距显著。直至 2024 年,一场名为“ARC Prize”的新竞赛再度引爆社区关注,有若干团队结合先进的大模型技术,终于把分数提升到约 50%–55%。这时,人们已经觉得“这算不小的飞跃”,却依然距离“人类水平”还有一段不小的差距。
没想到,新近公布的 o3 模型在某些 ARC 子集上的准确率飙升到 75.7%,甚至在高算力配置下达到了 87.5%,直接超越了以往所有选手。对于如此令人惊艳的数据,人们既好奇它的具体实现策略,也想弄清它是否真正代表了机器对抽象思维的掌握。本篇文章将回顾 ARC 的缘起、设计、竞赛发展与最新进展,并着重解析 o3 的成绩对“通用智能”与“认知测评”的潜在启示与限制。
第二部分:ARC 的构想与特质
(2)ARC 的诞生及其关键定位
ARC(Abstraction and Reasoning Corpus)由一位在计算机科学与认知科学领域颇具影响力的研究者提出,旨在突破当代 AI 常依赖“训练数据规模”这一因素的局限。换言之,ARC 的核心理念在于:很多真正带有“普适认知”意味的任务无需数百万上亿的示例,它们往往能从寥寥几个样本中就抽取到深层规则。这一点恰恰是人类智能的一大特征:我们不需要学习几千只猫的图片才知道猫的概念,甚至只要三两张有代表性的示例,就能快速生出归纳、迁移到新情境。
ARC 的每道题由网格(grid)输入与输出构成。网格类似一个二维阵列,每个单元格有相应的颜色或数值。题目会展示 1–4 组网格的“输入→输出”实例,暗含某种共同变换原则。解题者(不管是人还是机器)必须通过观察这些极少量示例来归纳出规则,并将其应用到同一题中给出的“新输入”,以产出正确的输出。成功与否取决于是否能准确理解“这几个网格间发生了什么抽象操作”。
这种问题设计有相当大的灵活性:变换可能是关于形状的上下翻转、对象对称、颜色映射、相对位置关系,甚至可能需要拆分并组合若干元素。作者强调,ARC 测试的并不是机器对图像的像素级统计能力,而是对“核心认知概念”的把握,如“对象与边界”、“对称与旋转”、“局部与全局”等。因此,ARC 的题目往往不大,不复杂,但却蕴含了理解上的深度。
(3)ARC 与“少样本”智力考验
传统的深度学习往往倚重大量训练样本,以期通过网络参数对庞大数据分布进行近似学习。然而,ARC 的任务恰恰要克服这种路径依赖:每道题只有非常有限的示例。一个常见的 ARC 任务也许给你 3 个样本,然后就要求对一个全新的网格给出正确输出。若没有更具普适性的概念理解能力,算法往往一筹莫展。
总结而言,ARC 核心有以下设计初衷:
1. 最小化训练需求:让解题系统仅凭少量示例和先验知识就能完成任务,而非靠事先海量标注的训练数据。
2. 抽象概念引导:ARC 更关注具备像人一般的空间认知、模式感知、形状变换等心智运作。
3. 快速学习与广泛迁移:一旦理解了某种变换原理,就应能快速将之应用于新网格,而不必额外依赖数百例补充示例。
开发者希望这能成为“更贴近通用智能”的评测手段。若系统能在 ARC 上展现出强韧表现,我们就可以期待它在其他需要灵活抽象、快速概括的情境里也能胜任。
第三部分:ARC 竞赛与“ARC Prize”的兴起
(4)私有测试集与多重评估
ARC 的 1000 道题目被分为几部分:400 道“训练任务”、400 道“公开评测任务”、100 道“半私有评测任务”以及 100 道“私有测试任务”。研究者通常用前两部分来调试算法,并在公开评测任务上获得大致的分数排名,而真正要验证系统的泛化性能与深层能力,则需在保密的 100 道题上进行最终评测。这一设置保证了无法直接对私有测试题进行针对性调参或数据标注,维护了评测的客观与严谨。
在过去几年的比赛里,最好成绩在私有测试上也只到 35%–40% 左右,与人类平均 85% 的正确率相去甚远。因此,ARC 长期被视为深度学习时代的一大“暗礁”,不只需要记忆或模式拟合,还需要真正的“概念组合力”。
(5)重金悬赏:ARC Prize 与新一轮挑战
为进一步推动 ARC 研究者和开发者的热情,一场名为“ARC Prize”的竞赛于 2024 年正式启动。该项目提供了高达 60 万美元的奖励,只要能在官方服务器限制(12 小时运算、不使用互联网)下,在私有测试集上取得 85% 以上的准确率,并最终开源代码,即可捧走大奖。组织者明确希望借此方式让更多人投入到通用推理及多概念操控的算法设计当中,同时也扮演“最后的测谎仪”——看哪些团队能在不违反常规认知假设的前提下取得实质性成果。
竞赛起初并未见爆炸性进展。直到大模型的概念席卷而来,部分参赛队伍开始将 GPT 系列或其他预训练语言模型引入 ARC 解题流程,并通过各种手段(包括数据增广、程序生成、提示工程以及少量微调)来提升成功率。在 2024 年的几次比赛中,最优秀的团队终于把分数推到 50% 甚至 55%。虽然未达到 85% 的线,但已是 ARC 创立以来最大的一次进展飞跃。
第四部分:ARC 的“违背假设”与方法争议
(6)ARC 初衷 vs. 大模型策略
ARC 的创始理念是“少样本、少训练、不依赖大规模数据”,鼓励构建有丰富先验知识的系统,用小巧精悍的推理来解决问题。可是,2024 年后崛起的高分系统普遍采取了与这初衷似乎相悖的做法:
1. 大规模增广训练:原本只有 400 道训练题,但在实践中,研究团队会对它们进行多角度的变换、改写或延伸,合成数千甚至上万条伪样例,再去微调语言模型。
2. 对单题的反复微调:在正式解题前,将 1–4 个官方示例再扩充成更多“推测性”样本,用以微调模型,使之“记住”或“锁定”该题的可能解法。
3. 推理时的海量采样或搜索:给大模型下达指令,生成数百乃至上千份候选答案,然后通过某种投票、打分或比较机制来选定最优解。
这些方法往往带来可观的精度提升。但也有人指责,这与最初的 ARC 设想背道而驰:我们本想考察“系统能否从 1–4 个样例直接提炼抽象规则,瞬间推断新网格”,而非鼓励系统进行庞大的反复尝试与显式搜索。这种“苦涩教训”与此前机器学习对其他复杂任务的攻克规律如出一辙:向海量数据和大算力“屈服”,也就获得了强大的拟合或搜索能力,却未必是真正的“内在理解”。
(7)成绩的两面性
无论如何,分数的提升也折射出机器学习在处理图像—文本混合任务时的潜力。大模型在编码语言、生成程序、推理过程等方面展现出前所未有的灵活性。也许 ARC“没那么纯粹”,但它向世人揭示了另一种可能——当语言模型获得足够多的知识表达能力,并在推理过程中借助适度搜索,居然能解决许多看似需要“高维概念”的挑战。
一些研究者进一步追问:那些在 ARC 上得到 50% 以上分数的系统,能否在其他形式的“抽象推理”任务中同样表现出色?还是说它们只是“记住了”这一类网格变换的特征分布,缺乏跨情境迁移的真正能力?这场争论至今仍在继续。
第五部分:o3 横空出世:新突破的意义
(8)o3 模型:出彩的“高级推理”之名
2024 年底,一家世界领先的 AI 机构发布了名为 o3 的新体系,其前一代称为 o1(o2 版本被跳过)。官方将 o3 形容为“可以应对高难度数学及抽象推理的新模型”,并强调它在 Frontier Math 以及 ARC-AGI(ARC 竞赛的新名称)上实现了巨大性能飞跃。基于一些社交平台的介绍,人们意识到 o3 不仅沿袭了大模型强大的自然语言生成能力,还很可能在推理时加入了某种“深层搜索”或“自监督过程”,从而在少样本场景下做出极高质量的答案。
不过,由于 o3 只能通过该机构的 API 访问,难以在离线环境中跑私有测试集,这使它无法正式参与 ARC Prize 的决赛评测——后者要求参赛队必须在无网络的官方服务器上执行。此外,o3 使用某种未知规模的计算资源,这在某种程度上也违背了 ARC 提倡的“轻量推理”精神。然而,在公众能接触到的“半私有测试集”(semi-private evaluation set)上,o3 交出了瞠目结舌的成绩:75.7%(低算力模式)与 87.5%(高算力模式)。尽管这个测试集只有 100 道题,并非完整的 ARC 1000 题,但其难度已被认为相当突出,且早已有多支队伍挑战过,却从未达到如此高度。
(9)打破旧格局:对社区的冲击
一时间,大家惊呼:这是否预示抽象推理与通用智能已离我们更近一步?如果 o3 的确能在完全没见过的新网格变换里也做出准确推断,那它就有可能拥有“更通用”的图形理解与逻辑操控能力。但在另一方面,也有声音质疑:o3 可能动用了极其庞大的推理时搜索量,每道题上千次采样乃至更多,甚至还辅以一个专门的“奖励模型”对中间推理过程层层筛选。这更像是把语言模型“当作一个生成器”,通过反复尝试再用某种投票或估分机制锁定正确解答。若如此,它仍旧走的是“加大推理时计算”的老路,只不过结合了更精妙的语言表示技术。
但不管过程如何,这样的高分无疑令 ARC 社区哗然。许多曾经宣称“大模型无法直接处理 ARC”的论点被撼动了。甚至有人预言,像 o3 这样的新技术在短期内可能就会超越大部分人类水平。也有人强调:对智能的直觉判断需要被更新,AI 或许正在以另一条道路——“隐式搜索 + 语言推理”——攀向抽象思维的高峰。
第六部分:o3 解题机制的推测与探讨
(10)训练与提示:已知的线索
据官方公开的只言片语,o3 对 ARC 的处理流程包括两个关键要素:
1. 微调训练:据说 o3 在原本的 400 道 ARC 训练题里选了 300 道来做微调,也就是说它在域内已经学到了相当多“网格变换模式”。
2. 简洁的输入提示:o3 面对具体 ARC 任务时,只需一个短 prompt(可能就是告诉它题目格式或要求),然后便可生成相应的解题步骤。至于究竟有没有在推理前做额外的数据增广、是否利用更多隐式知识库,目前尚无详尽说明。
另外,o3 可能还使用了先进的“chain of thought”训练方法,即让模型在产生最终答案前,先以自然语言的形式生成一条“思维链”,将其拆解为若干推理步骤,再依据每一步的输出去决定下一步怎么想。现有的一些前沿研究表明,若再配合“强化学习”或“排序打分”机制,就可能训练出一个能在推理时更好地分辨对错的奖励模型,从而让系统在多次采样中更高概率找到正确解。
(11)是否类似 AlphaGo 的 Monte Carlo Tree Search?
ARC 的创始人以及部分学者曾揣测,o3 可能在推理阶段采用了类似 AlphaGo / AlphaZero 的蒙特卡洛树搜索(MCTS):系统反复模拟可能的推理分支,并将每条思维链都送进一个“价值网络”或“奖励模型”来评估,好比AlphaGo 会在棋盘搜索不同走法的后果。最后,把分数最高或出现最频繁的解链定为最终方案。
但也有其他研究者认为 o3 不一定使用了 AlphaGo 那样的显式树搜索。它更可能是一次次独立的语言模型“前向传递”,在每次推理中受到神经网络已学得的知识约束,从而生成较有可能正确的答案。由于语言模型参数庞大,甚至已有“自动纠错”或“自反式思维”的倾向,看似实现了某种类似搜索的效果,却并非严格的蒙特卡洛树搜索。
无论哪种猜测,外界普遍认为:o3 在推理时进行远超以往规模的候选生成与筛选,以达到极高置信度。尤其在“高算力模式”下,据说可允许多达 1024 次采样,每次都产生相应的解题思维链和候选网格输出,然后再透过多数投票或其他算法来选定最优解。每道题需要的计算成本或达数千美元乃至上百万美元才能跑完整个测试集,令人惊叹。
第七部分:搜索与暴力——对 ARC 初衷的冲击
(12)“暴力搜索”的质疑
针对 o3 在高算力环境中取得的 87.5% 这一成绩,有人将其称作“用钱砸出来的暴力解”。然而,也须认识到,这并不等同于盲目遍历所有可能输出:语言模型的内在权重和结构,赋予了它一定的启发式能力。它的搜索更像是一种“智能化的深度探索”,不完全是“所有网格可能性的纯粹穷举”。因此,称之为“暴力”也可能有失公允。或许它更贴近“启发式搜索”,类似 AlphaGo 在棋盘中通过网络评估指导搜索方向。
不过,若从 ARC 的出发点来看,最理想的解题方式应该是:不必上千次尝试,也不必强行微调,只需根据极少示例+内在概念库,快速锁定变换规则。这就像人类在看几幅示例时,能轻松推测“哦,这是形状整体旋转”或“这把蓝色改为黄色”。数秒内脑中的认知机制完成了大量并行计算,但从外部视角看,似乎只是一瞬间。不难预见,在赛场或研究报告里,“需要成百上千次外显推理调用”可能被视作对“ARC 纯粹挑战”的某种背离。
(13)AI 认知本质的再次拷问
事实上,这一矛盾反映了当下 AI 范式的深层冲突:究竟什么是“通用理解”?若能够通过庞大的内部搜索与统计,这种“外在显著的多次尝试”是否就与“真正理解”相区隔?在某种哲学层面上,这也是对人脑思维机制的注脚:我们或许也是在大规模并行搜索,只是把那些复杂的计算都隐藏在脑神经网络里,最终以“直觉”或“灵感”方式呈现出来。
因此,关于 o3 或其他大模型能否算作“真正具有抽象推理力”,或许不能单凭“搜索多寡”“算力耗费”来做简单评判。有学者呼吁,需要更多后续实验证明:当遇到稍作变形的题目,例如变换题目背景或将形状置换为别的载体,模型是否依旧能轻松泛化?或者它会重新需要上千次大规模搜索?唯有深入研究这些扩展问题,才能更好地判断系统的概念掌握程度。
第八部分:过拟合与真抽象——通用性考量
(14)人机对照:从 Atari 游戏的启示
不少关注 AI 的人也提及早期“Deep Reinforcement Learning”在 Atari 2600 游戏中取得超水准表现的例子。当时,研究人员训练出一个神经网络,可在 Breakout(打砖块)等游戏上获得惊人高分。然而,只要把球拍上移几个像素或对界面稍做修改,原网络的成绩立刻惨不忍睹。这意味着网络在原环境中学到的“策略”并不真正基于抽象概念“球、板、砖块”,而更像是一种像素级别的模式记忆。
有鉴于此,一些人便猜测:o3 等模型在 ARC 任务中的卓越表现,也可能源于“对某些网格像素统计规律的巧妙记忆与搜索”,而不是真的“理解到”抽象空间变换。要证明它真正理解概念,需要在更广泛或更灵活的环境中进行测验:譬如把网格换成另一种呈现,或把同样的规则搬到别的场景——如果 o3 依然快速识别并应用,那才说明其内化了概念,而不只是对 ARC 的特殊性过拟合。
(15)跨域迁移与泛化实验
若想更深入地衡量某个系统对“ARC 中概念”的掌握,可考虑以下几种测试方案:
1. 变换呈现形式:将原有的 2D 网格重新编码或稍作结构修改,若系统依旧能识别并实现相同变换规则,则表明它对核心概念不依赖具体像素布局。
2. 跨模态验证:若变换概念是“旋转 90°”,能否同时理解文字、图形、3D 空间等不同模态中的类似操作?
3. 一题多变体:给出一题的多种变体,让系统必须在各版本之间做联结,才能得到最终解答,以检测其灵活度与抽象理解度。
4. 全新领域的测试:如把 ARC 中常见的空间变换思想挪到某种符号序列或嵌套结构上,看系统是否需要重新大量训练,还是能无缝衔接。
目前尚无详尽报告表明 o3 在这些环节的表现如何。未来也许会有更多团队主动设计这类细化测评,以便检验大模型是否真正“领悟”了抽象概念,而非仅在一种任务形式内神奇地高分。
第九部分:ARC 的下一步:面临“饱和”还是“迭代”?
(16)ARC 日渐饱和的现状
ARC 的发明者在 recent 访谈与报告中提及:ARC 的难度虽然很高,但毕竟题数有限,一旦有足够多的团队针对性地研究,迟早会出现“超过某个阈值后再也无法区分系统能力”的状况。正如很多基准一旦成为热门竞赛,很快就面临“榜单数据趋于天花板”的命运。从语音识别到图像识别,再到阅读理解,每当一个基准被盯上,业内总能用规模更大、算力更强的模型来冲破它,最终导致基准失去原有的“前沿检验”价值。
ARC 可能也步入类似境况:当分数已飙到 80% 甚至 90% 以上,人们不得不再次审视:究竟是机器突破了核心难点,还是这个基准被某些特定搜索技巧或超大模型特征“攻陷”?
(17)ARC-AGI-2:下一代更难挑战
因此,ARC 的设计者已经在酝酿新版本“ARC-AGI-2”,声称自 2022 年起便着手收集更多更复杂、更具多样性的网格变换题,里面会体现以下特点:
1. 更多题量:100 道私有题不够区分能力,将扩增到数百乃至上千道。
2. 更严格资源限制:可能分多个赛道,要求在固定时间、固定 GPU 计算力下完成所有题,避免像 o3 这样用上千次采样砸钱解决。
3. 多步推理与混合模态:新增跨域或混合形态任务,题目形式可能不再是单纯的二维网格,还会加入数字、文字线索,考察系统能否灵活运用逻辑与概念操作。
4. 可解释性要素:或许要求系统在给出结果的同时,给出相对合理的推理链说明,进一步督促模型能够“自证抽象理解”而非仅仅产出结果。
这表明“抽象推理”仍是一个长期命题,当前对 ARC 的攻克只是一段征程。下一阶段,围绕更广泛的通用智能评测也将不断迭代和演化。
第十部分:未来走向与反思
(18)不只在一隅:抽象推理的广阔战场
ARC 作为“抽象推理”一个典型范式,终究只代表了人类高阶认知中的某一个切面。现实生活的情境往往更复杂:我们需要多模态整合,需要社交理解,需要长期记忆与动态更新,更需要对未知范式做出快速反应。因而,如果有系统声称在 ARC 上得分高,就真的“通晓抽象推理”了吗?答案并不简单,需要更多具有广泛适用性的实验来证明其通用性。
但 ARC 与类似基准至少树立了一个标杆:它们将抽象思维与信息操纵的挑战形式化,促使研究者思考如何让机器在极少样例下悟出规则、如何让模型具备概念库与推理能力。纵然现今方法仍依赖大量算力与搜索,但在这过程中,我们也看到了许多意想不到的技术融合——譬如语言模型与程序生成的结合,用自然语言描述推理过程,再让机器自我迭代修正,这本身便是一种引人注目的新探索。
(19)Goodhart 定律与新基准生成
有句警示流行于研究界:“当一个指标变成了目标,就会失去原先作为指标的意义。” ARC 起初作为“测试 AI 抽象推理的指标”,如今成了许多团队的“明面目标”,自然就会催生一些针对性打法(例如海量微调、投票搜索),从而让 ARC 测试的纯度与广度受到挑战。我们在历史上也看过无数相似案例:当机器翻译以 BLEU 分数为评测标准,大量团队便专攻“BLEU 优化”,不一定真正提升可读性;当 ImageNet 成为计算机视觉主战场,各团队针对其数据分布展开激烈卷积网络竞赛,结果却未必能无缝迁移到其他场景。
ARC 让人看到这样的规律:任何评测想要保持对通才智能或某种高阶认知的测量,就必须与时俱进地更新题库、更新规则,乃至在多模态、多样本或多情境上下功夫。否则,一旦有人能用极端方法在现有基准上刷出接近 100% 的分数,评测便难以再展现区分度。
(20)AI 认知之路:从大模型到真正理解
回顾近年 AI 的巨变,大模型为我们带来了高度灵活的语言与知识表达,也带来了更强大的“自动生成”能力。在抽象与推理领域,它们同样显露出许多可能性。然而,真正的“概念操控”仍不仅仅是大量参数和搜索深度所能简单概括的。我们或许还需要引入更多源于人类认知的发展机制,包括对概念结构的可组合性、对世界经验的主动建模、以及对推理过程的自反监控等。
很多前沿研究正在尝试把神经网络与符号逻辑、程序生成、元认知等相结合,希冀能“往人类认知更近一步”。就像 ARC-AGI-2 可能将出现更复杂的测试形式,也许未来的一些综合性评估工具会要求 AI 同时在语言对话、视觉场景理解、物理模拟乃至因果推理等多方面表现优秀,这才更接近我们通常定义的“智能”。届时,单纯依赖“海量搜索”的模型也许无法轻易复制成功,必须内化更多通用结构。
第十一部分:进一步的技术与研究趋势
(21)多模态与语言互通
时下正流行的“多模态大模型”将语言与视觉、语音、视频、3D 信息打通,这类模型若用于 ARC 之类的任务,可能呈现新的维度。例如,模型不但能够根据文本提示生成对网格的理解,还能反过来以语言向人类解释它认定的变换操作。若它确实拥有足够的抽象能力,就可以在语言层面对变换做明晰阐述,比如“对所有独立连通块执行中轴对称”。此类可解释性,将使外界更易判断其“理解”还是在“猜谜”。
(22)在线学习与核心知识库
ARC 所隐含的另一层挑战在于:人类拥有“核心物理与几何知识”、空间直觉,甚至能借助已有经验融会贯通。机器若要模拟这点,或许须在模型内部构建更为显式或符号化的概念层。例如,一部分研究者尝试在大模型中加入先验几何模块或对象检测机制,让系统能识别“这是一个方形物体”“这是一个蓝色区域”,再把这些信息输入语言推理器。如此,一旦遇到新任务,就能较快抓到要点,而不是仅在像素或 token 空间盲目摸索。
(23)自我监督与元认知
一旦系统能实时监控自身推理轨迹并在出现偏差时主动修正,就可能更高效地在极少样本情境中成功。一些方法强调“让模型在推理中自问自答”,记录过程,若发现结果与示例间有明显冲突,能自动退回前一步修正思路。这与人类解题的过程很相似:先有一个假设,然后小范围验证,若不符就调整假设。ARC 需求的正是这种灵活的思考循环。o3 若确实整合了这类机制,部分解释了其在有上千次采样时能取得高分;问题在于,在低资源模式下,这种“自我审视”是否还能保持良好性能?
第十二部分:结语与展望
(24)回望这场“抽象推理”大戏
从 ARC 诞生,到 ARC Prize 再到近期的 o3 现身,AI 社群见证了一场围绕“抽象推理”展开的创新与博弈,也再度体会了数据、算力、算法互相融合所产生的巨大冲击力。ARC 起初之所以令人兴奋,就在于它要挑战“常规大数据训练”模式,却不料在若干年后又被一种规模更大、更融合语言—搜索—强化学习的新范式局部“破解”了。回顾这一历程,我们学到了至少三点:
1. 抽象推理极具挑战性:即便有了强大的深度学习模型,若想让机器在寥寥数例中归纳出深层规律,仍需大量尝试与巧妙设计,这本身说明了何谓“理解”的复杂度。
2. 大模型并非无能为力:借助语言表征、程序生成、强化搜索等技术,它们在 ARC 这类看来很“稀疏”的任务上也能取得令人惊讶的成果,说明大模型在某些层面具备可塑性。
3. 评测基准需不断进化:当一个基准饱受关注与攻击,胜利迟早会到来,这时需要更进阶、更广泛的任务来检验真正的通用性与可迁移能力。
(25)前路漫漫,AI 的“理解”依旧在路上
所以,o3 在 ARC-AGI 半私有集上获得的 87.5% 分数,并不代表机器已全面攻克抽象推理,也不意味着 ARC 的使命就此终结。更可能的结局是:随着时间推移,ARC 会像它的诸多前辈基准一样,加入新的变体与升级;新的、更具雄心的评测数据集也会问世;研究者们依旧会去探寻大模型背后所能生长出的抽象结构。未来的 AI 或许将从“单纯的海量搜索”进化到能“自主构造概念图谱、灵活调用规则、类比跨域迁移”的高级形态。那时,我们才可能真正接近“抽象理解”和“多维通才智能”的曙光。
无论怎么说,ARC 及其一系列衍生竞赛、大奖,已经在当代 AI 舞台上留下了鲜明的印记,也不断提醒着我们:当我们谈论智能时,不应止步于处理大数据的能力,而应更多关注对结构、对概念、对微妙关联的掌握。o3 的冲击让我们看到另一种解决方案——即便消耗惊人的算力,它也提供了一个思考范例:语言模型有可能通过多步推理与搜索实现令人惊叹的“猜到正确规则”。然而,这种“猜到”在多大程度上构成“真正理解”?仍需更多精细、系统化的实验去回答。
也因此,人们对 ARC 的兴趣与探讨并不会就此停歇,反而会引发更广泛的好奇:我们究竟应如何定义“抽象推理”?如何衡量 AI 的“理解力”?如何区分“大规模搜索”与“深度掌握”的差别?或许唯有在不断提出新问题、设计新评测、创造新方法的过程中,我们才会逐渐逼近对“智能”本质更深刻且多元的洞见。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。