AlphaGo的原理

最新推荐文章于 2024-11-05 16:49:46 发布

鸟恋旧林XD

最新推荐文章于 2024-11-05 16:49:46 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习笔记文章标签： alphago 阿尔法狗深度学习蒙特卡洛树搜索

本文链接：https://blog.csdn.net/niaolianjiulin/article/details/77852632

版权

AlphaGo结合深度学习和蒙特卡洛树搜索（MCTS）解决强化学习问题。MCTS通过随机采样模拟棋局以评估棋面价值，而深度学习提供策略和价值网络。离线学习阶段包括策略和价值网络的训练，而在线对弈时，策略网络指导搜索，价值网络辅助局势判断。AlphaGo的特点包括在优势时趋于保守，弱点在于复杂局面下的搜索精度和价值网络的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. foreword

开宗明义。

阿尔法狗原理：深度学习网络 + 蒙特卡罗搜索树

没看论文，直接看别人的讲解，容易遇到很多生词。前后翻了好几篇博客，对比着来看，方才大略知道怎么回事。

2. 蒙特卡罗方法

2.1 蒙特卡罗随机算法

在《西瓜书》特征选择一节，有随机选择特征子集的步骤。周老师说：拉斯维加斯方法和蒙特卡罗方法是两个著名的随机化方法。这俩方法并不是某个具体的方法，而是代表两类随机算法的思想。

蒙特卡罗方法：采样的次数足够多，则越接近于最优解。强调每一步迭代都是当前的最优解。比如1筐苹果要找到最大的，先随机拿出第一个，再随机拿出一个比较，如果比第一个大，则留下，比第一个小则舍弃。每次留下的苹果的大小起码不低于上次的。只要次数足够多，就可以找到最大的。当然次数有限，找的也是次大的。即尽量找最好的，但不保证是最好的。

拉斯维加斯方法：采样的次数足够多，则越有可能找到最优解。强调直接得到最优解。比如有1扇门，100把钥匙，其中只有1把可以打开。每次随机拿出一把开门，开了就找到了，不开则舍弃再随机挑选一把。只要次数足够多，则一定可以找到最优解。

二者区别：有限采样内，拉斯维加斯或者给出最优解，或者不给出解。蒙特卡罗一定会给出解，但不一定是最优解。若无时间限制，则两者都可以给出最优解。

算法名字带有蒙特卡洛的意思在于：其对搜索空间的搜索都是随机给一个方向的。开个玩笑：开头就说了，蒙（特卡洛树）算法主要靠蒙。主要是在随机采样上计算得到近似结果，随着采样的增多，得到的结果是正确结果的概率逐渐加大。