小组汇报（2021-11-09）

最新推荐文章于 2023-06-23 22:36:16 发布

Sixing27

最新推荐文章于 2023-06-23 22:36:16 发布

阅读量303

点赞数

分类专栏：基本文章标签： python

本文链接：https://blog.csdn.net/weixin_42689397/article/details/121224868

版权

5 篇文章 0 订阅

订阅专栏

在这里插入图片描述

混合策略/重复博弈 & 强化学习
重复博弈
 混合策略

Stackelberg均衡-协同博弈：多个均衡点，收敛到收益最高的那个纳什均衡点。
在该博弈模型中，先作出决策的一方被称为leader，在leader之后，剩余的players根据leader的决策进行决策，被称为followers，然后leader再根据followers的决策对自己的决策进行调整，如此往复，直到达到纳什均衡。
SE的第一个优势是确定性或独特性。一个游戏中可能存在多个NEs，而多个se只能在非常严格的条件下存在。
SE的第二个优点是性能。在协调环境中，SE比平均NE具有更好的帕累托优势。一个极端的例子是合作游戏。在合作博弈中，SE总是达到帕累托最优点，而只有最佳NE达到帕累托最优.

协同问题： 多个均衡，如何选取？如下两种博弈都是有多个均衡的情况，左边的是两车会车的情况，两车都选左和都选右，那就能过得去，否则就撞车了，右边是斗车的情况，一辆变道就都不会碰撞，于是纳什均衡也有两个，也就是其中一辆车主动变道。

那么到底该如何选取呢？这种问题是无法在基本假设的清苦下去选取的，那么只好修改基本设定，例如：引入通讯机制，商议一下；或者设定一些社会规则，以此使得两方达到好的均衡。

+ 在这里插入图片描述

合作博弈：合作博弈中允许参与者互相协调，结盟以提高自身利益。合作博弈与非合作博弈的区别在于非合作博弈强调个体理性，而合作博弈强调集体理性。从另一个方面理解：存在具有约束力的合作协议的博弈就是合作博弈。
合作博弈形成条件：
- .联盟的整体收益大于每个个体单独经营收益之和
- 每个参与者都能获得比不加入联盟更高的收益

关注