最近,DeepMind 今年 2 月份的一篇论文在社交媒体上掀起了一些波澜。
这篇论文题为「Grandmaster-Level Chess Without Search」。文中介绍说,DeepMind 的研究者训练了一个参数量为 2.7 亿的 Transformer 模型,这个模型无需依赖复杂的搜索算法或启发式算法就能达到「特级大师( Grandmaster-Level )」的国际象棋水平,优于 AlphaZero 的策略和价值网络(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。
到目前为止,能达到这个级别的计算机国际象棋系统 —— 无论是否基于机器学习 —— 都使用了搜索组件。
而 DeepMind 模型不依赖搜索似乎就能达到如此强大的下棋水平。
很多人将其解读为:这表明 Transformer 不是简单的「随机鹦鹉」,而是具有一定的推理和规划能力。就连该论文的作者也在「结论」部分写道:「我们的工作为快速增长的文献增添了新的内容,这些文献表明,复杂而精密的算法可以被蒸馏为前馈 transformer,这意味着一种范式的转变,即从将大型 transformer 视为单纯的统计模式识别器,转变为将其视为通用算法近似的强大技术。」
不过,这种解读也引来了一些争议。比如,Meta FAIR 研究科学家主任田渊栋指出,论文采用的评估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是闪电战,在国际象棋中指超快棋。在这种棋赛中,对局每方仅有几分钟的时间思考,玩家往往依赖直觉而非深入的搜索和解决问题的能力。此外,模型与机器人对弈时的分数比与人类对弈时的分数要低。田渊栋认为这可能是因为人类在有限的时间内可能没有机器人那么擅长发现战术上的失误。所以,这种比赛可能并不足以用来测试模型是否拥有推理能力。