关于Alphago的一些感想

欢迎大家关注微信公众号:DRL学习,一起学习强化学习,了解人工智能。

AlphaGo论文地址:《Mastering the game of Go with deep neural networks and tree search 》doi:10.1038/nature16961 

AlphaGo Zero论文地址:《Mastering the game of Go without human knowledge 》doi:10.1038/nature24270 

AlphaZero论文地址:《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 》arXiv:1712.01815

首先,我们来解读AlphaGo的论文。Go的游戏长期以来一直被视为人工智能最具挑战性的经典游戏,因为其巨大的搜索空间以及评估边界位置和行动的难度。在这里,我们介绍一种计算机Go的新方法,它使用“价值网络”来评估边界位置和“政策网络”来选择移动位置。这些深度神经网络是由来自人类专家游戏的监督学习和自我博弈的强化学习的新型组合训练的。在没有任何前瞻性搜索的情况下,神经网络在最先进的蒙特卡洛树搜索(MCTS)程序的层面上玩Go游戏,模拟成千上万的随机游戏自我博弈。我们还介绍一种新的搜索算法,将蒙特卡洛模拟与价值和策略网络相结合。使用这种搜索算法,我们的AlphaGo在其他Go计划中获得了99.8%的胜率,并且以5比0战胜了欧洲GO游戏的人类冠军。这是计算机程序首次击败了一名职业玩家这是Go的一个大型游戏,一个以前被认为至少有十年历史的壮举。

对于强化学习来说,最核心的两个网络,即value network与policy netwoek也就是我们说的价值网络和政策网络,价值网络和政策网络的作用简单点来说就是在你的上一步的基础上,计算机通过价值网络开始计算你走下一步所有的可能性以及之后可以赢的每一步的概论,计算之后计算机会反馈给政策网络进行选择,政策网络会根据你目前的状态和以后的行动概论进行评估,寻找最优的路径来走当前步。当然这种网络也不是尽善尽美的,有很多时候计算机自己会走入死胡同,也可能会抄近路离目标越来越远,所以这里的reward的设置尤为关键,一个好的reward函数会引领你的计算机走向胜利,同时也会带你走入死局。因此,在AlphaGo的论文中我们可以看到,一共训练了在监督学习下的policy网络以及无监督学习下的pilicy网络,和无监督条件下的value网络。所谓的监督学习就是计算机根据我们的棋谱进行学习,无监督则是计算机根据自己已经积累的经验和知识,进行自我博弈训练,并不需要人为的干预,所以AlphaGo可以说是半监督半强化的结合产物。论文中提到的用到的一个比较主要的网络就是将policy和value网络与MCTS相结合。蒙特卡洛树搜索(MCTS)算是一个及其经典的强化学习算法,简书上的介绍相对来说更全面一些,有兴趣可以自己去搜索一下,这里简单的给大家一个介绍。简单的实例如下图所示,也就是在选择了第一步之后,会对剩下的步骤进行搜索,形成树一样的结构就叫做了搜索树,搜索树会把每一步的概论和返回值都传输回来,然后根据概率值选择你要走的路,依次向下,如图黑色线的轨迹就是计算自己做出的决策路线。这种方法被普遍的使用,可以将你所有的步骤进行评估,做的非常的全面,但是计算量太大,以至于在做艰难决策过程中会耗费大量的空间和内存,所以,目前这种方法也被做了改良或者在小型的活动中使用。

论文中将价值网络和政策网络与蒙特卡洛树搜索相结合,该算法通过预先搜索来选择动作。搜索树的每个边界(s,a)存储动作值Q(s,a),访问次数N(s,a)和 先验概率P(s,a)。从根状态开始,通过仿真遍历(即,完整游戏中没有备份地下降)。 在每个模拟的每个时间步t,从st状态中选择一个动作at。也就是在当前状态下根据反馈回来的value值和policy值以及存储对(s,a)进行选择,当前状态下应当选择哪个动作。

 

当然,结果大家应该都了解了,就是AlphaGo打败了李世石,凡辉还有柯洁。所以,至此AlphaGo也算正式推出历史舞台,之后的版本包括AlphaGo zero和Alphazero都是在AlphaGo的经验之上进行自我博弈,其中阿尔法零算是完全自主学习的典范,算是完全无监督的典例。并且,DeepMind也宣布正式退役AlphaGo不会再去做Go游戏,因为已经做的非常好了。

AlphaGo让世界了解了人工智能,也让人工智能成为了目前的大热门,但是目前的技术并没有达到特别高的境界,所以未来需要做非常多的努力和探索,无论结局如何,人工智能永远会是一个大的方向。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值