强化学习笔记(七):蒙特卡洛树搜索(MonteCarlo Tree Search)

目录

选择

扩展

模拟

反向传播

课外资料


如果说多臂赌博机问题被看做 单步强化学习任务 (只用一步决策玩哪个老虎机,然后就收到回报),那么蒙特卡洛树搜索可以看做是解决 多步强化学习任务 的工具。  是一种天然的用来刻画或者存储多步决策的数据结构。正如所有的动态规划问题可以被转化为图搜索,而所有的线性规划问题可以被转化为二分图一样。 至于蒙特卡洛树搜索,实际上可以分为两步[1]:

  • 利用树结构来重新表达决策问题
  • 利用蒙特卡洛方法来进行搜索

MCTS对游戏进行多次模拟,然后尝试基于模拟结果对最佳下一步进行预测。MCTS的四个步骤,即选择、扩展、模拟和反向传播。

MCTS的主要概念还是搜索。搜索是沿着游戏树的一组遍历的集合,单次遍历是从根节点(当前游戏状态)到一个未完全展开节点的路径。一个未完全展

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值