AlphaGo的原理

AlphaGo结合深度学习和蒙特卡洛树搜索(MCTS)解决强化学习问题。MCTS通过随机采样模拟棋局以评估棋面价值,而深度学习提供策略和价值网络。离线学习阶段包括策略和价值网络的训练,而在线对弈时,策略网络指导搜索,价值网络辅助局势判断。AlphaGo的特点包括在优势时趋于保守,弱点在于复杂局面下的搜索精度和价值网络的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. foreword

开宗明义。

阿尔法狗原理:深度学习网络 + 蒙特卡罗搜索树

没看论文,直接看别人的讲解,容易遇到很多生词。前后翻了好几篇博客,对比着来看,方才大略知道怎么回事。

2. 蒙特卡罗方法

2.1 蒙特卡罗随机算法

在《西瓜书》特征选择一节,有随机选择特征子集的步骤。周老师说:拉斯维加斯方法和蒙特卡罗方法是两个著名的随机化方法。这俩方法并不是某个具体的方法,而是代表两类随机算法的思想。

蒙特卡罗方法:采样的次数足够多,则越接近于最优解。强调每一步迭代都是当前的最优解。比如1筐苹果要找到最大的,先随机拿出第一个,再随机拿出一个比较,如果比第一个大,则留下,比第一个小则舍弃。每次留下的苹果的大小起码不低于上次的。只要次数足够多,就可以找到最大的。当然次数有限,找的也是次大的。即尽量找最好的,但不保证是最好的。

拉斯维加斯方法:采样的次数足够多,则越有可能找到最优解。强调直接得到最优解。比如有1扇门,100把钥匙,其中只有1把可以打开。每次随机拿出一把开门,开了就找到了,不开则舍弃再随机挑选一把。只要次数足够多,则一定可以找到最优解。

二者区别:有限采样内,拉斯维加斯或者给出最优解,或者不给出解。蒙特卡罗一定会给出解,但不一定是最优解。若无时间限制,则两者都可以给出最优解。

算法名字带有蒙特卡洛的意思在于:其对搜索空间的搜索都是随机给一个方向的。开个玩笑:开头就说了,蒙(特卡洛树)算法主要靠蒙。主要是在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大。

2.2 蒙特卡罗树搜索(MCTS)

阿尔法狗中,蒙特卡罗树搜索主要是用来快速评估棋面位置价值的。

Monte Carlo methods are ways of solving the reinforcement learning problem based on averaging sample returns。

下棋其实就是一个马尔科夫决策过程(MDP):根据当前棋面状态,确定下一步动作。

该下哪步才能保证后续赢棋的概率比较大呢?最直观的想法就是:穷举之后的每一种下法,然后计算每一步赢棋的概率,选择概率最高

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值