博弈论2（扩展型博弈）_行为策略和混合策略-CSDN博客

本文链接：https://blog.csdn.net/weixin_43473397/article/details/108266541

文章目录

博弈树

以囚徒困境为例，转换成博弈树的形式（不是完全等价，有了先后顺序）。
在这里插入图片描述
考虑一个两个人的回合制小游戏，圆圈和叉叉连成一条线。
博弈问题可以转换成一个搜索问题。

一个标准（基本）的博弈树如下：
Max希望收益越大，Min希望收益最小

Max纯策略

树的高度为h，Max做决策只有 $h$ / $2$ 步。
最优策略搜索
在这里插入图片描述
Minimax搜索算法
希望搜索博弈树得到想要的结果，但不希望复杂度那么高。Minimax搜索算法就是其中一种，时间复杂度没有降低，空间复杂度降低了。

具体过程：
视频讲解：https://www.bilibili.com/video/BV1p7411C7De
在这里插入图片描述

实际上把所有的终端节点都遍历了一遍，因此时间复杂度很高。
但实际上不需要访问所有的节点，因此可以对算法进行剪枝。
什么时候可以剪枝

Alpha-Beta剪枝算法

完美信息的扩展型博弈

上面说的博弈树都是完美信息的博弈树，其中没有任何不确定因素，能够完整的把博弈树定义下来，因此这类博弈称完美信息的扩展型博弈。
在这里插入图片描述
分享博弈

博弈纯策略

扩展型转为正则型

纳什均衡存在定理

不知道怎么翻译，大概就是这种完美信息的扩展博弈是能找到纯策略纳什均衡的。

扩展型博弈的纳什均衡
在这里插入图片描述

有一个稳定的纳什均衡和两个弱的纳什均衡。弱的纳什均衡均不满足子博弈纳什均衡。

子博弈精炼均衡

在这里插入图片描述

逆向归纳法

蜈蚣博弈
这里说明子博弈精炼均衡也有一些局限性

子博弈均衡会告诉你把游戏停掉是最好的方案，实际是不合理的。

信息集

不确定前面一个人往O走还是F走，有点像两个决策者同时做决策，虚线描述不确定因素，当存在虚线时就是不完美信息的扩展型博弈。
在这里插入图片描述

不完美信息的扩展型博弈

在完美信息的扩展型博弈的基础上加上虚线就是不完美信息的扩展型博弈。
在这里插入图片描述

囚徒困境

博弈纯策略

博弈混合策略与行为策略
博弈混合策略：纯策略的概率分布（选择之前）
行为策略：信息集中针对不同的点的概率分布

混合策略和行为策略得到的结果可能不一样。
混合策略：
在这里插入图片描述
行为策略：