目录
如果说多臂赌博机问题被看做 单步强化学习任务
(只用一步决策玩哪个老虎机,然后就收到回报),那么蒙特卡洛树搜索可以看做是解决 多步强化学习任务
的工具。 树
是一种天然的用来刻画或者存储多步决策的数据结构。正如所有的动态规划问题可以被转化为图搜索,而所有的线性规划问题可以被转化为二分图一样。 至于蒙特卡洛树搜索,实际上可以分为两步[1]:
- 利用树结构来重新表达决策问题
- 利用蒙特卡洛方法来进行搜索
MCTS对游戏进行多次模拟,然后尝试基于模拟结果对最佳下一步进行预测。MCTS的四个步骤,即选择、扩展、模拟和反向传播。
MCTS的主要概念还是搜索。搜索是沿着游戏树的一组遍历的集合,单次遍历是从根节点(当前游戏状态)到一个未完全展开节点的路径。一个未完全展