博弈论2(扩展型博弈)

博弈树

以囚徒困境为例,转换成博弈树的形式(不是完全等价,有了先后顺序)。
在这里插入图片描述
考虑一个两个人的回合制小游戏,圆圈和叉叉连成一条线。
博弈问题可以转换成一个搜索问题。
在这里插入图片描述
一个标准(基本)的博弈树如下:
Max希望收益越大,Min希望收益最小
在这里插入图片描述
在这里插入图片描述
Max纯策略
在这里插入图片描述
树的高度为h,Max做决策只有 h h h/ 2 2 2步。
最优策略搜索
在这里插入图片描述
Minimax搜索算法
希望搜索博弈树得到想要的结果,但不希望复杂度那么高。Minimax搜索算法就是其中一种,时间复杂度没有降低,空间复杂度降低了。
在这里插入图片描述
具体过程:
视频讲解:https://www.bilibili.com/video/BV1p7411C7De
在这里插入图片描述
在这里插入图片描述
实际上把所有的终端节点都遍历了一遍,因此时间复杂度很高。
但实际上不需要访问所有的节点,因此可以对算法进行剪枝。
什么时候可以剪枝
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Alpha-Beta剪枝算法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

完美信息的扩展型博弈

上面说的博弈树都是完美信息的博弈树,其中没有任何不确定因素,能够完整的把博弈树定义下来,因此这类博弈称完美信息的扩展型博弈。
在这里插入图片描述
分享博弈
在这里插入图片描述
博弈纯策略
在这里插入图片描述
扩展型转为正则型
在这里插入图片描述
在这里插入图片描述
纳什均衡存在定理
在这里插入图片描述
不知道怎么翻译,大概就是这种完美信息的扩展博弈是能找到纯策略纳什均衡的。

扩展型博弈的纳什均衡
在这里插入图片描述
在这里插入图片描述
有一个稳定的纳什均衡和两个弱的纳什均衡。弱的纳什均衡均不满足子博弈纳什均衡。

子博弈精炼均衡

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
逆向归纳法
在这里插入图片描述
在这里插入图片描述
蜈蚣博弈
这里说明子博弈精炼均衡也有一些局限性
在这里插入图片描述
子博弈均衡会告诉你把游戏停掉是最好的方案,实际是不合理的。
在这里插入图片描述
信息集
在这里插入图片描述
不确定前面一个人往O走还是F走,有点像两个决策者同时做决策,虚线描述不确定因素,当存在虚线时就是不完美信息的扩展型博弈。
在这里插入图片描述

不完美信息的扩展型博弈

在完美信息的扩展型博弈的基础上加上虚线就是不完美信息的扩展型博弈。
在这里插入图片描述
在这里插入图片描述
囚徒困境
在这里插入图片描述
博弈纯策略
在这里插入图片描述
博弈混合策略与行为策略
博弈混合策略:纯策略的概率分布(选择之前)
行为策略:信息集中针对不同的点的概率分布
在这里插入图片描述
混合策略和行为策略得到的结果可能不一样。
混合策略:
在这里插入图片描述
行为策略:
在这里插入图片描述

完美回忆博弈

混合策略和行为策略是不一样的。
在这里插入图片描述

点到点之间的路径一样(历史记录一样)称为完美回忆。
在这里插入图片描述
d和e就是完美回忆,因为往上走的路径一样。
如果是完美回忆的博弈,混合策略和行为策略是等价的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

序贯均衡

针对不完美信息扩展型博弈有个解的条件。
在这里插入图片描述
在这里插入图片描述

内容总结

在这里插入图片描述

  • 博弈树
    Minimax算法,Alpha-Beta剪枝
  • 完美信息扩展型博弈
    扩展型转换成正则型,子博弈精炼均衡,逆向归纳法
  • 不完美信息扩展型博弈
    信息集,完美回忆,序列均衡
  • 8
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值