比AlphaGo Zero更强的AlphaZero来了！8小时解决一切棋类！ PENG Bo

最新推荐文章于 2023-08-09 17:52:38 发布

AI科技大本营

最新推荐文章于 2023-08-09 17:52:38 发布

阅读量1.7k

点赞数

Photo by Jason Kempin/Getty Images for Agon Limited

作者 | 禀临科技联合创始人 PENG Bo

读过AlphaGo Zero论文的同学，可能都惊讶于它的方法的简单。另一方面，深度神经网络，是否能适用于国际象棋这样的与围棋存在诸多差异的棋类？

MCTS（蒙特卡洛树搜索）能比得上alpha-beta搜索吗？许多研究者都曾对此表示怀疑。

但今天AlphaZero来了（https://arxiv.org/pdf/1712.01815.pdf），它破除了一切怀疑，通过使用与AlphaGo Zero一模一样的方法（同样是MCTS+深度网络，实际还做了一些简化），它从零开始训练：

4小时就打败了国际象棋的最强程序Stockfish！
2小时就打败了日本将棋的最强程序Elmo！
8小时就打败了与李世石对战的AlphaGo v18！

在训练后，它面对Stockfish取得100盘不败的恐怖战绩，而且比之前的AlphaGo Zero也更为强大（根据论文后面的表格，训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero）。

这令人震惊，因为此前大家都认为Stockfish已趋于完美，它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师，碰上了用枪的AlphaZero，被一枪毙命。

在reddit的国象版面的讨论中（Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess-https://www.reddit.com/r/chess/comments/7hvbaz/mastering_chess_and_shogi_by_selfplay_with_a/），大家纷纷表示AlphaZero已经不是机器的棋了，是神仙棋，优美，富有策略性，弃子灵活坚决，更能深刻地谋划（maneuver），完全是在调戏Stockfish。

国际象棋的基本规则，大家应该都知道，可以看这个Youtube视频的分析：https://www.youtube.com/watch?v=lb3_eRNoH_w 。Stockfish作为传统AI的代表，有人类设计的评估函数，整天想着“怎样怎样可在多少步后吃对方的子”。AlphaZero是“以德服人”，Stockfish贪吃就给Stockfish吃，没关系，AlphaZero有自己的想法：它直接让Stockfish的一堆子连家都出不了。Stockfish只能干瞪眼。AlphaZero想怎么走就怎么走，Stockfish疲于奔命，四处救火。这一切，正如AlphaGo此前在围棋上所显示的惊人控制力。

很有趣的是，和围棋的情况一样，AlphaZero证明了许多人类开局是正确的。不过，AlphaZero不喜欢西西里防御。