博弈决策---蒙特卡洛搜索过程(一):原理

一、简介

蒙特卡洛树搜索(简称 MCTS)最早兴起于上个世纪五十年代左右,从统计实验中衍生而来,在博弈决策中发挥了巨大的作用。当博弈序列较长,动作空间大时,往往会使博弈树非常巨大,导致使用蒙特卡洛树搜索带来了较大的困难,近几年深度学习的兴起,尤其是AlphaGO,其使用了深度学习与蒙特卡洛树搜索相结合,借助MCTS的框架(就是实验统计的思想),利用深度网络来拟合,解决了空间规模较大的问题,在各类游戏中越来越突出MCTS的作用。

二、博弈树

先看博弈树,博弈树能够直观的体现出双方的决策行为,如下图所示,这种博弈适合异步博弈,如棋牌类,一方的决策需要等待另一方决策完成之后。从树中根节点开始,任一个状态,树中的每一个分支即为一种决策路径(双方的决策)。博弈树中常见的方法即为最大最小法(max-min),剪枝法等。MCTS就是用于解决这两种方法的不足。

二、基本原理

MCTS核心部分包含四个步骤:选择(Selection)、扩展(Expansion)、仿真(Simluation)、回溯(Backpropagation)。

核心思想:当遇到需要决策的状态点时,利用大量的仿真实验结果来评估该点每个动作的好坏,仿真实验可能会达到上万局,根据决策问题的复杂度来定,在AlphaGo中就是用快速走子网络来做实验。最终返回当前状态的一个决策结果。

节点信息

每一个节点代表一个状态,每一条边代表状态动作对,每一个节点处至少包含三种信息,一是节点访问次数,一是节点获胜次数,一是节点处的评估值。

选择(Selection)

扩展(Expansion)

仿真(Simluation)

回溯(Backpropagation)

参考论文

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值