浅谈AlphaGo

最新推荐文章于 2022-03-31 15:50:42 发布

小蓝人

最新推荐文章于 2022-03-31 15:50:42 发布

阅读量1.6k

点赞数

分类专栏：机器学习深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/only2cyq/article/details/71079329

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

由DeepMind团队开发的AlphaGo的大放异彩使得研究者对人工智能、深度学习等有了更深入的了解和更多的信心。
在AlphaGo之前，由IBM开发的智能国际象棋系统Deep Blue也击败了世界冠军。但是Deep Blue和AlphaGo的核心技术有很大差别，前者主要是依赖于超级强大的计算机资源，使用brute-force的方法尝试很多走棋方法，是通过优越的计算处理速度来战胜人类，而后者AlphaGo则是采用了深度学习和强化学习，进行更加智能的判断，因为相比于国际象棋走棋的复杂度 10^46 ，围棋有更多的落子方式，有更多的不确定性，复杂度有10^172 。
AlphaGo主要包含3部分：蒙特卡洛树搜索（Monte Carlo tree search）、估值网络（value network）、走棋网络（policy network）。Value network和policy network是AlphaGo的真正智慧所在。
Policy network实际上就是提供走棋策略，针对给定的当前棋盘，预测下一步应该在哪里落子。这一步涉及到了学徒学习，根据人类专家的决策过程范例，比如大量人类围棋高手对弈的棋谱，将人类专家决策轨迹数据（轨迹包含state/棋盘和action/落子序列）中的“state-action对“抽取出来，构造新的数据集。基于构造的数据集，学习得到策略模型，能以57%的准确率预测人类围棋高手下一步的落子点。这在走棋方式繁多的围棋中，已经是很高的准确率了。
Value network主要是做评估，针对当前棋盘，判断黑棋赢的概率。AlphaGo主要是通过落子网络自己与自己对弈，产生数据集，训练估值网络，进一步提升落子准确率。
与Deep Blue的纯暴力搜索不同，Monte Carlo tree search会根据Policy network和Value network给出的策略和估值，评估采取当前落子行为后的局势，进而选择最佳走棋动作。

小蓝人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈AlphaGo

由DeepMind团队开发的AlphaGo的大放异彩使得研究者对人工智能、深度学习等有了更深入的了解和更多的信心。在AlphaGo之前，由IBM开发的智能国际象棋系统Deep Blue也击败了世界冠军。但是Deep Blue和AlphaGo的核心技术有很大差别，前者主要是依赖于超级强大的计算机资源，使用brute-force的方法尝试很多走棋方法，是通过优越的计算处理速度来战胜人类
复制链接

扫一扫

专栏目录