博弈树
以囚徒困境为例,转换成博弈树的形式(不是完全等价,有了先后顺序)。
考虑一个两个人的回合制小游戏,圆圈和叉叉连成一条线。
博弈问题可以转换成一个搜索问题。
一个标准(基本)的博弈树如下:
Max希望收益越大,Min希望收益最小
Max纯策略
树的高度为h,Max做决策只有
h
h
h/
2
2
2步。
最优策略搜索
Minimax搜索算法
希望搜索博弈树得到想要的结果,但不希望复杂度那么高。Minimax搜索算法就是其中一种,时间复杂度没有降低,空间复杂度降低了。
具体过程:
视频讲解:https://www.bilibili.com/video/BV1p7411C7De
实际上把所有的终端节点都遍历了一遍,因此时间复杂度很高。
但实际上不需要访问所有的节点,因此可以对算法进行剪枝。
什么时候可以剪枝
Alpha-Beta剪枝算法
完美信息的扩展型博弈
上面说的博弈树都是完美信息的博弈树,其中没有任何不确定因素,能够完整的把博弈树定义下来,因此这类博弈称完美信息的扩展型博弈。
分享博弈
博弈纯策略
扩展型转为正则型
纳什均衡存在定理
不知道怎么翻译,大概就是这种完美信息的扩展博弈是能找到纯策略纳什均衡的。
扩展型博弈的纳什均衡
有一个稳定的纳什均衡和两个弱的纳什均衡。弱的纳什均衡均不满足子博弈纳什均衡。
子博弈精炼均衡
逆向归纳法
蜈蚣博弈
这里说明子博弈精炼均衡也有一些局限性
子博弈均衡会告诉你把游戏停掉是最好的方案,实际是不合理的。
信息集
不确定前面一个人往O走还是F走,有点像两个决策者同时做决策,虚线描述不确定因素,当存在虚线时就是不完美信息的扩展型博弈。
不完美信息的扩展型博弈
在完美信息的扩展型博弈的基础上加上虚线就是不完美信息的扩展型博弈。
囚徒困境
博弈纯策略
博弈混合策略与行为策略
博弈混合策略:纯策略的概率分布(选择之前)
行为策略:信息集中针对不同的点的概率分布
混合策略和行为策略得到的结果可能不一样。
混合策略:
行为策略:
完美回忆博弈
混合策略和行为策略是不一样的。
点到点之间的路径一样(历史记录一样)称为完美回忆。
d和e就是完美回忆,因为往上走的路径一样。
如果是完美回忆的博弈,混合策略和行为策略是等价的。
序贯均衡
针对不完美信息扩展型博弈有个解的条件。
内容总结
- 博弈树
Minimax算法,Alpha-Beta剪枝 - 完美信息扩展型博弈
扩展型转换成正则型,子博弈精炼均衡,逆向归纳法 - 不完美信息扩展型博弈
信息集,完美回忆,序列均衡