博弈决策---蒙特卡洛搜索过程（一）：原理

最新推荐文章于 2024-05-24 01:19:54 发布

风雨潇潇一书生

最新推荐文章于 2024-05-24 01:19:54 发布

阅读量2.2k

点赞数

分类专栏：智能机动决策文章标签：蒙特卡洛搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40493501/article/details/120274758

版权

智能机动决策专栏收录该内容

13 篇文章 37 订阅

订阅专栏

一、简介

蒙特卡洛树搜索(简称 MCTS)最早兴起于上个世纪五十年代左右，从统计实验中衍生而来，在博弈决策中发挥了巨大的作用。当博弈序列较长，动作空间大时，往往会使博弈树非常巨大，导致使用蒙特卡洛树搜索带来了较大的困难，近几年深度学习的兴起，尤其是AlphaGO，其使用了深度学习与蒙特卡洛树搜索相结合，借助MCTS的框架（就是实验统计的思想），利用深度网络来拟合，解决了空间规模较大的问题，在各类游戏中越来越突出MCTS的作用。

二、博弈树

先看博弈树，博弈树能够直观的体现出双方的决策行为，如下图所示，这种博弈适合异步博弈，如棋牌类，一方的决策需要等待另一方决策完成之后。从树中根节点开始，任一个状态，树中的每一个分支即为一种决策路径（双方的决策）。博弈树中常见的方法即为最大最小法（max-min），剪枝法等。MCTS就是用于解决这两种方法的不足。

二、基本原理

MCTS核心部分包含四个步骤：选择（Selection）、扩展（Expansion）、仿真（Simluation）、回溯（Backpropagation）。

核心思想：当遇到需要决策的状态点时，利用大量的仿真实验结果来评估该点每个动作的好坏，仿真实验可能会达到上万局，根据决策问题的复杂度来定，在AlphaGo中就是用快速走子网络来做实验。最终返回当前状态的一个决策结果。

节点信息

每一个节点代表一个状态，每一条边代表状态动作对，每一个节点处至少包含三种信息，一是节点访问次数，一是节点获胜次数，一是节点处的评估值。

选择（Selection）

扩展（Expansion）

仿真（Simluation）

回溯（Backpropagation）

参考论文

风雨潇潇一书生

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
博弈决策---蒙特卡洛搜索过程（一）：原理

MCTS 本身是结合随机采样的最佳优先搜索，能够求解状态空间较大的问题。同时，其在推理过程中考虑了敌我双方的可能行动，在此基础上形成对不同方案的评估，这种方式非常适合分析类似作战这种存在动态对抗的环境。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。