小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(下)

梁敬彬梁敬弘兄弟出品

往期回顾
小朋友都能懂的人工智能⓵开篇大吉(上)
小朋友都能懂的人工智能⓵开篇大吉(中)
小朋友都能懂的人工智能⓵开篇大吉(下)
小朋友都能懂的人工智能②卷机神经网络初探(上)
小朋友都能懂的人工智能②卷机神经网络初探(中)
小朋友都能懂的人工智能②卷机神经网络初探(下)
小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(上)
小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(中)

「09 无师自通,彻底放飞自我」

L:2019年底,Google推出一个更具有颠覆性的版本,叫MuZero,这个版本最神奇的地方在于,MuZero根本不知道围棋的规则是什么?

A爸:什么…我没听错吧,不知道围棋规则?

L:是的,我简要说说围棋规则吧。1.地多者胜;2.气尽棋亡;3.禁止全局同型再现。对此,Muzero是不!知!道!的!

A爸:…不知道?

L:是的!当然了,围棋还有一些类似交替落子、棋子只能落在交叉点上、不允许悔棋等浅层规则,属于棋局环境预设,就不在讨论范围内了。

众人:不可能,不知道规则,棋还怎么下呢?

L:哦,这里要澄清一下,不知道规则并不是没有规则,规则是存在的,只是MuZero不知道,我们并没有教它。准确的说法是,MuZero在深度神经网络和蒙特卡洛树搜索运行的过程当中,没有使用到上述围棋规则。而AlphaGo家族四大成员中的另外三位,AlphaGo、AlphaGo Zero、AlphaZero在运行中是知道这些规则的。

B:我还是不明白,不懂规则如何下棋?

L:其实,MuZero要做的事情说起来也很简单,既然没人教我规则,那就自己观察,自己学呗。

在这里插入图片描述

比如,在下棋的过程中,MuZero发现,哎呀,黑子放这里,怎么就把白子拿起来,慢慢就琢磨出了“气尽棋亡”;终局后MuZero在想,黑棋为什么就被判输啊,慢慢就明白了“地多者胜”;下着下着,哎呀,这子怎么就不能吃,奇了怪了,等一等怎么又可以吃了,哦,慢慢就悟出了“禁止全局同型再现”…然后,就可以开始碾压人类顶尖棋手了。
A爸:从老老实实学习大量人类高手棋谱的AlphaGo,到放弃人类棋谱自己琢磨怎么下的AlphaGo Zero,再到不满足围棋而将国际象棋将棋一并拿下的AlphaZero,最后演化出连规则都不用告诉他的MuZero。我的天啦,这也太魔幻了吧!

L:这里最逆天的当属MuZero,通过在没有明确规则指南的情况下实现自我学习和决策,MuZero开辟了人工智能应用于解决任意复杂环境问题的新途径,其影响力已远远超出了围棋领域,预示着未来人工智能技术在更多领域的广泛应用和深远影响。

A爸:AlphaGo这是升华了啊!

「10 阿狗远去,江湖英雄辈出」

L:AlphaGo以碾压人类顶尖围棋高手的方式出道,可谓技惊四座。正当我们用出道即巅峰来形容AlphaGo时,不想AlphaGo居然用一套让人眼花缭乱的组合拳告诉大家。嗨,哥出来的那个位置,其实只是山脚哦。无论是具体知识、所处领域、还是领域规则,没有什么限制是不能突破的,AlphaGo已经开悟了,在推出MuZero后AlphaGo决定不再投入任何与围棋相关的研究与活动,而转战他处。至此,围棋江湖只留下了AlphaGo的传说。

A爸:您讲述的AlphaGo系列让我大为震撼,我都不知道该用什么语言来表述我的心情。

L:我也很受震撼。AlphaGo淡出围棋圈后,其公开的论文成为了围棋AI江湖的武学宝典,Leela Zero、KataGo、绝艺、星阵等围棋AI接过了AlphaGo手中的大旗,成为了围棋AI中耀眼的明星,并解决了AlphaGo留下的诸多不足,实实在在推进了围棋AI的发展,在提升人类棋手棋艺方面,做出了巨大的贡献。

在这里插入图片描述

A:什么,大杀四方的AlphaGo,还会什么不足之处吗?

L:是的。AlphaGo是基于深度学习网络(卷积神经网络)和蒙特卡洛树搜索结合的产物。其中深度学习网络主要是训练出来两个网络,分别是价值网络和策略网络。而这个价值网络在AlphaGo这里体现的是胜率,如果对价值的判断仅仅停留在胜率上,对人类棋手的学习和理解,是不够的。

A:那还要增加什么吗?

L:围棋的输赢取决于谁的地盘更大,所以目差对于人类棋手来说,是一种更直观的感觉。比如分析一手棋掉了15%胜率时你会觉得非常惶恐,但是当你知道这个15%对应的实际损失的目数才2目时,你又没那么紧张了。所以这些明星围棋AI大多都在判断胜率的同时增加了目差,这种改变让人类棋手大为受益。具体实现的原理,我后续也会进行相应的科普。

A爸:这个改变好,太有用了!还有吗?

L:围棋本质是比较谁的地盘越大谁赢。但是胜率最高的下法,是否就一定是对围地盘最好的下法呢?

A:那肯定啊。

L:那可不一定,围棋虽说是谁围得大谁赢,但是赢半目也是赢,赢100目也是赢,从赢棋的角度来说,这两者是没区别的。AlphaGo围棋的策略是胜率优先,所以它会在领先的时候不断的退让,在终局时稳稳的收住胜利的成果,往往不多不少就赢你那么一点点。比如他分先赢你一点点,让两子也赢了一点点,让三子依然只赢你一点点。你永远无法逼出让他使出全力的时候,我们也就永远无法从他那学到真正的棋艺。

A:原来是这样啊,那AlphaGo之后的围棋AI做到了吗?

L:是的,各围棋AI基本都做到了,其中典型代表就是星阵围棋,多次获得AI围棋世界大赛的冠军,号称不退让围棋,不走自己心中认定的最佳变化不罢休。要是能赢你100目,就绝不只赢你99目!所以星阵围棋的棋很激烈,观赏性很高,棋手也更容易从星阵中学到妙手,是完美主义者心中的最爱。

在这里插入图片描述

此外KataGo围棋也很有趣,甚至允许通过一定的参数调整,让其下出类似“欺招”这类的过分手段,来考验人类的应对能力。

A爸:真是脑洞大开,还有吗?

L:有啊,比如可以通过仅和你下一盘棋,就可以评估出你的围棋实力,为你定级定段,准确度相当的高。还有许多实用的优化策略,这里就不一一赘述了。至此,“阿狗”简史告一段落。

A爸:精彩,回味无穷啊!对了,上一讲您提到的阿尔法狗与卷积神经网络有密切关系,并提到正是由于棋盘上的计算量越来越少导致阿尔法狗的实力越来越强…这些现在可以给我们解释解释吗?

在这里插入图片描述

L:OK,这一回咱们讲完了“狗”故事,接下来,是时候对其运行原理进行科普了,不过时间不早了,咱们下回分解吧。

未完待续…

系列回顾

“大白话人工智能” 系列
“数据库拍案惊奇” 系列
“世事洞明皆学问” 系列

小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

收获不止数据库

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值