AlphaGo原理探讨

AlphaGo原理探讨

由于状态空间无法穷举,博弈类游戏AI都采用了(启发式)搜索算法,即从当前状态出发,尝试可靠的行动,达到终局或一定步数后停止,根据后续局面的优劣反馈,采取最优行动。为了评估行动是否可靠,引入策略函数Q(a|s)和评估函数V(s),策略函数Q即在当前状态(state)下能采取的行动(action),评估函数V对当前状态评分,AlphaGo采用卷积神经网络拟合这两个函数。AlphaGo应用的蒙特卡罗树搜索(MCTS)是一种搜索框架,它把游戏的进程用树结构表示,通过反复模拟和采样对局过程来探索状态空间。它有如下特点:
1. 并行搜索,对可靠的多个行动同时进行推演;
2. 能随时进行,随时停止。 在对方思考对策时,不停止推演,在对方走子后保留之前的状态,根据最新的状态 进行推演。对方实际走子可能出现在刚才的推演中,所以刚才的计算是有用的。
3. 随机性采样,能减小估值错误的负面影响。
4. 在探索状态空间过程中,能应用神经网络选择节点,能结合强化学习调整评估函数。
5. 它基于规则进行推演,而神经网络基于案例训练出评估函数,用来调整蒙特卡罗树搜索。


机器学习大体上可以分为四部分:数据集、系统模型、训练方法、评估方法。下面分别解释AlphaGo的这几个部分:
- 数据集:一个个独立的KGS人类在线围棋比赛棋谱、机器自我对弈棋谱作为训练集,最后的胜负作为目标;

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值