【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏...

最新推荐文章于 2023-07-15 10:04:19 发布

weixin_34026484

最新推荐文章于 2023-07-15 10:04:19 发布

阅读量230

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/3611008/blog/1861536

版权

2019独角兽企业重金招聘Python工程师标准>>>

世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久——不是因为大家都去看谁（没）跟谁吃饭了，而是DeepMind再次迅速超越了他们自己，超越了我们剩下所有人的想象。

12月5日，距离发布AlphaGo Zero论文后不到两个月，他们在arXiv上传最新论文《用通用强化学习算法自我对弈，掌握国际象棋和将棋》（Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm），用看似平淡的标题，平淡地抛出一个炸弹。

其中，DeepMind团队描述了一个通用棋类AI“AlphaZero”，在不同棋类游戏中，战胜了所有对手，而这些对手都是各自领域的顶级AI：

战胜最强国际象棋AI Stockfish：28胜，0负，72平；
战胜最强将棋AI Elmo：90胜，2平，8负；
战胜最强围棋AI AlphaGo Zero：60胜，40负

其中，Stockfish是世界上最强的国际象棋引擎之一，它比最好的人类国际象棋大师还要强大得多。与大多数国际象棋引擎不同，Stockfish是开源的（GPL license）。用户可以阅读代码，进行修改，回馈，甚至在自己的项目中使用它，而这也是它强大的一个原因。

我有几张阿里云幸运券分享给你，用券购买或者升级阿里云相应产品会有特惠惊喜哦！把想要买的产品的幸运券都领走吧！快下手，马上就要抢光了。

将棋AI Elmo的开发者是日本人泷泽城，在第27届世界计算机将棋选手权赛中获得优胜。Elmo的策略是在对战中搜索落子在哪个位置胜率更高，判断对战形势，进而调整策略。Elmo名字的由来是electric monkey（电动猴子，越来越强大之意），根据作者的说法也有elastic monkey（橡皮猴子，愈挫愈勇）之意。

a10a09b75e6d8fbd85c0d243b5c3b6fb760ddf22

而AlphaGo Zero更是不必介绍，相信“阿法元”之名已经传遍中国大江南北。而AlphaZero在训练34小时后，也胜过了训练72小时的AlphaGo Zero。

AlphaZero横空出世，网上已经炸开了锅，Reddit网友纷纷评论：AlphaZero已经不是机器的棋了，是神仙棋，非常优美，富有策略性，更能深刻地谋划（maneuver），完全是在调戏Stockfish。

看着AlphaZero赢，简直太不可思议了！这根本就不是计算机，这压根儿就是人啊！

Holy fu*ck，第9场比赛太特么疯狂了！

DeepMind太神了！

我的神啊！它竟然只玩d4/c4。总体上来看，它似乎比我们训练的要少得多。

这条消息太疯狂了。

而知乎上，短短几小时内也有很多评论：

知乎用户fffasttime：专治各种不服的DeepMind又出师了，但这次的主攻的内容不再是围棋了，而是所有的棋类游戏。……之前AlphaGo把围棋界打得心态崩了，而现在AlphaZero赢的不光是人类棋手，还包括各路象棋的AI作者。

知乎用户陆君慨：棋类的解决框架一直都是基于 minimax + heuristic。以前围棋难是因为minimax在有着很大分支的游戏上无法产生足够的深度，并且heuristic难以设计。Alphago Zero时候就已经证明了cnn很适合做heuristic，而mcts也可以解决深度问题。那为什么别人不做呢？

因为贫穷限制了我们的想象力。

转载于:https://my.oschina.net/u/3611008/blog/1861536