AlphaGo原理探讨

最新推荐文章于 2024-04-21 21:50:47 发布

VIP文章豪雄Hero

最新推荐文章于 2024-04-21 21:50:47 发布

阅读量3.9k

点赞数 3

分类专栏：阅读笔记文章标签：神经网络 AlphaGo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014003962/article/details/51852549

版权

AlphaGo原理探讨

由于状态空间无法穷举，博弈类游戏AI都采用了（启发式）搜索算法，即从当前状态出发，尝试可靠的行动，达到终局或一定步数后停止，根据后续局面的优劣反馈，采取最优行动。为了评估行动是否可靠，引入策略函数Q（a|s）和评估函数V（s），策略函数Q即在当前状态（state）下能采取的行动（action），评估函数V对当前状态评分，AlphaGo采用卷积神经网络拟合这两个函数。AlphaGo应用的蒙特卡罗树搜索（MCTS）是一种搜索框架，它把游戏的进程用树结构表示，通过反复模拟和采样对局过程来探索状态空间。它有如下特点：
1. 并行搜索，对可靠的多个行动同时进行推演；
2. 能随时进行，随时停止。在对方思考对策时，不停止推演，在对方走子后保留之前的状态，根据最新的状态进行推演。对方实际走子可能出现在刚才的推演中，所以刚才的计算是有用的。
3. 随机性采样，能减小估值错误的负面影响。
4. 在探索状态空间过程中，能应用神经网络选择节点，能结合强化学习调整评估函数。
5. 它基于规则进行推演，而神经网络基于案例训练出评估函数，用来调整蒙特卡罗树搜索。

机器学习大体上可以分为四部分：数据集、系统模型、训练方法、评估方法。下面分别解释AlphaGo的这几个部分：
- 数据集：一个个独立的KGS人类在线围棋比赛棋谱、机器自我对弈棋谱作为训练集，最后的胜负作为目标；

最低0.47元/天解锁文章

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
AlphaGo原理探讨

AlphaGo原理探讨由于状态空间无法穷举，博弈类游戏AI都采用了（启发式）搜索算法，即从当前状态出发，尝试可靠的行动，达到终局或一定步数后停止，根据后续局面的优劣反馈，采取最优行动。为了评估行动是否可靠，引入策略函数Q（a|s）和评估函数V（s），策略函数Q即在当前状态（state）下能采取的行动（action），评估函数V对当前状态评分，AlphaGo采用卷积神经网络拟合这两个函数。AlphaG
复制链接

扫一扫

专栏目录

豪雄Hero CSDN认证博客专家 CSDN认证企业博客

码龄10年

3: 原创

59万+: 周排名

106万+: 总排名

3万+: 访问

: 等级

229: 积分

3: 粉丝

8: 获赞

0: 评论

27: 收藏

私信

关注

热门文章

分类专栏

阅读笔记 3篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。