博弈论笔记：动态博弈

最新推荐文章于 2025-01-13 00:02:23 发布

UQI-LIUWJ

最新推荐文章于 2025-01-13 00:02:23 发布

阅读量1.4w

点赞数 2

分类专栏：博弈论文章标签：博弈论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/117626623

版权

博弈论专栏收录该内容

6 篇文章

订阅专栏

1 导言

行动有先后顺序，不同的参与人在不同时点行动，先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者做了什么选择。

因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应对？如果我是他，我将会如何行动？给定他的应对，什么是我的最优选择？

静态博弈：所有参与人同时行动

动态博弈：参与人行动有先后顺序，后行动者在先行动者做出决策之后在做出决定（eg，下棋

常用博弈树表示动态博弈

2 动态博弈

动态博弈中，事前最优的战略可能不是事后最优。（A可以按照B声明的来判断选择，也可以不按照；那么B就可以因地制宜地改变。——相机行动方案,contingent action plan）

以上图为例,老师的决策是给学生打分打及格or不及格；学生事先声明，如果我及格了，我是选择A（accept）战略还是F（fighting）战略。（这个声明老师也是能看得到的）

对于上面这个表达式，我们有三个纳什均衡一个是【及格，(A,F)】，一个是【不及格，(F,A)】，另一个是【不及格，(A,A)】。

我们先看第一个纳什均衡。学生申明我采取的是(A,F)战略，老师为了不得到-10的代价，会选择给学生及格。但是退一步讲，即便老师给了不及格，学生也不会选择F战略，因为此时学生选了F战略的话，虽然老师是-10的代价了，可自己也是-10的代价，损失太大。因此，如果学生是理性的，那么即使老师给了不及格，学生也不会选择F战略。那么老师就不会受其威胁。因此,(A,F)是一个不可置信威胁。

我们再看第二个纳什均衡。学生申明我采取的是(F,A)战略，老师为了不得到-10的代价，选择了给学生不及格。但退一步讲，即使老师给了及格，学生也不会选择F战略（和(A,F)战略不可置信是一样的推导方式），因此(F,A)也不是一个可置信威胁。

最后一个纳什均衡，分析下来是可以达到的，(A,A)是一个可置信威胁。

——》动态均衡就是要排除一些不可置信的威胁。

2.1 精炼纳什均衡 perfect NE

不包含不可置信的行动的战略所组成的纳什均衡被称为“精炼纳什均衡”。

也就是说，不论过去发生了什么，构成精炼纳什均衡的战略，其所规定的行动在每一个决策点上都是最优的。所以，又称为“序惯均衡”(sequential equilibrium);

精炼纳什均衡首先必须是“纳什均衡”，但并非所有纳什均衡都是合理的；只有其战略不包含不可置信行动的纳什均衡才是合理的。

不可置信威胁的根源是事前最优与事后最优不同，导致许多帕累托效率无法实现

2.2 子博弈

由原博弈中某个决策点（信息集）开始的部分构成一个子博弈。

精炼纳什均衡：

（ 1 ）在原博弈是一个纳什均衡；

（2 ）在每一个子博弈上都是纳什均衡。

2.3 逆向归纳法 backward induction

在有限博弈中，我们可以用逆向归纳法求解精炼纳什均衡：从最后一个决策点开始，找出该子博弈的纳什均衡；然后再倒回到倒数第二个决策点，找出决策者的最优决策（假定最后一个决策者的决策是最有的；如此一直到初始决策点，所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”。

精炼纳什均衡下所经过的决策点和最优选择构成的路径，称为均衡路径（equilibrium path);

其他的路径是非均衡路径（ off-equilibrium path);

以上图为例，我们逆向归纳。先看最后一个需要博弈的对象1，他此时有两个选择，U'和D'。如果选U'的话，可以得到5；选择D'的话，可以得到4。5＞4，那么(4,2)这一选择就被淘汰了。然后看2，同理可以把(5,0)淘汰（因为1＞0）；最后又回到1，他会选择U（因为2＞0）。

所以逆向归纳法的结果为(2,0)。

2.4 理性共识

逆向归纳的过程实际上就是重复剔除劣战略的过程，其前提是博弈规则和理性

共识：每个人是理性的，每个人知道每个人是理性的，如此等等。

因此，精炼纳什均衡的合理性取决于理性共识的合理性。

3 承诺

承诺是将不可置信的威胁变成可置信的威胁的行动：威胁不仅是事前最优的，也是事后最优

的。

承诺意味着限制自己的自由：选择少反而对自己好。但承诺也是有成本的。（eg，项羽破釜沉舟）

我们重新审视2.3的例子。如果1承诺不选择U'的话：此时需要被剔除的战略我们用绿色的×来表示，黑色的×表示原来被剔除的战略。此时，最后逆向归纳法的结论为(4,2)。

3.1 承诺举例

3.1.1 婚姻

->婚姻中的承诺：彩礼、昂贵的婚礼可以理解为一种对婚姻的承诺。

在这个模型下，如果没有承诺的话，男方可能就会选择“抛弃”，女方拒绝；有了承诺之后，女方接受，男方忠诚。

3.1.2 公债

D表示最大公债，r表示公债的利率，P表示政府违约的时候受到的惩罚

——>政府履约的条件：D(1+r)<=P（即违约收到的惩罚大于我吞掉公债的获得）

也就是说，政府可发行的最大公债为P/(1+r)

老百姓对政府的约束能力决定了P

——>有限（民主）政府比专制政府可以发行的公债更多

3.1.3 非升即走的大学制度

老制度下，精炼纳什均衡是不努力，不提升。

新制度下，精炼纳什均衡是努力，提升。

博客等级

码龄8年

1596
原创

5614
点赞

1万+
收藏

3563
粉丝

关注

私信

热门文章

分类专栏

最新评论

机器学习笔记（聚类）层次聚类 Agglomerative Clutsering（Single-linkage、Complete-linkage，Group average）
m0_57187185: 很有帮助！谢谢博主
论文笔记：Universal Value Function Approximators
Venus-ww: 算法1，看上去只是用强化学习框架来收集样本来更新UVFA用的，如何用于强化学习呢，比如，如何和DQN结合呢？
论文笔记：Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond
qq418674358: 博主，请问下，我想找一个模型进行gps轨迹分类，用来区分是电瓶车的gps轨迹，还是汽车的gps轨迹，有什么可以直接用的模型吗，多谢了
数据集：深圳ETC数据（OD数据、轨迹数据）
是个例外: 你好，Description for Urban Data Release V2的数据集可以分享一下吗，我下载不了。
强化学习笔记：Sarsa算法
weixin_43831645: 虽然这是个老帖子了，但是也许还会有新人来看，所以还是想简单分享一下。SARSA更新用的是5元组(s, a, r, s', a')，其中s'是当前状态s执行动作a后到达的新状态。a'是基于当前策略实际会选择的下一动作（例如epsilon-greedy下的某个动作）。假设我们把这些元组存入replay buffer。当我们的策略发生变化后，如果我们从replay buffer中抽取一条旧的数据(s, a, r, s', a')来做更新，用y=r+gama*Q_target(s', a')来估计当前策略下的期望，那么这个a'实际上是过去某个旧策略下采取的动作，可能会与当前策略会采取的动作不同。在这种情况下，就会引入策略不一致的偏差，使得这个TD target与当前策略的真实期望之间产生误差。由于SARSA是on-policy算法，它要求更新时用的动作a'来自当前策略，这解释了为什么SARSA通常不适合与replay buffer一起使用。

大家在看

最新文章

2025

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。