耶鲁大学《博弈论》课程——重复博弈

最新推荐文章于 2023-06-23 22:36:16 发布

ZYLer_

最新推荐文章于 2023-06-23 22:36:16 发布

阅读量1.5k

点赞数 2

分类专栏：博弈论文章标签：职场和发展

本文链接：https://blog.csdn.net/ZYLer_/article/details/128765603

版权

博弈论专栏收录该内容

10 篇文章 9 订阅

订阅专栏

重复博弈 Repeated Games

日常生活中的大部分互动，是根本没有契约的，但是很多关系都有重复性，比如朋友之间的友谊、国与国之间的互动等都不需要契约来制衡，但是通常情况下，他们之间的合作是持久的。即使在商业上，契约也不一定是完全有用的。所以，我们需要某种方法形成一种模式，以便能使合作(/good behavior)持续下去。这就需要 重复互动。

【重复互动(Repeated Interaction)】：在一个正在进行的关系中，对于将来奖励的承诺和未来惩罚的威胁，可能会为现在的好行为提供激励。

【囚徒困境】案例：

在最后一轮，相当于是一个一次性博弈，纳什均衡是(defect, defect)，而且没有了未来的激励，那么理智的参与者都会选择背叛，那么通过逆向归纳法往前推，它的收益再加上最后一轮两人都背叛的收益如下，可见还是一次性博弈：

所以两人还是选择背叛，以此类推，往前的每一轮都会选择背叛。

可以看出，这并不是我们想要的结果，那么这里出现了什么问题？ => 重复博弈的最后一个阶段，没有了未来的奖励或者惩罚，所以所有的合作都失败了，局势崩盘。重复互动博弈的重点在于明确未来会对现在的行动提供激励。

如连任失败效应(lame duck effect)，在明确连任失败的时候，就会损害总统或总裁的合作能力。这种效应在经济领域很常见。

在这里能得到结论：在两人都知道一段关系将要结束的时候，那么基本上就不会有持续性的合作了，即使是在重复互动的情况下。

但是这个结论并不完全正确，见下面案例。

【案例1】：

结论：如果一个重复的阶段博弈，有不止一个NE，可以通过预测不同的策略造成的结果来为下一次行动提供激励，可以把一个均衡视为奖励，另一个均衡视为惩罚。此时，作为最后一个阶段，仍然有动机促使达成收益更高的均衡，也就是持续合作。

这里存在一个问题：参与人1在第一轮选择背叛，选了B，那么第二轮为啥两人还是选B，为什么不选利益更高的C？

【案例2】：

还是合作和背叛游戏，但是这次通过抛硬币决定什么时候结束游戏——双正面结束(75%的概率继续游戏)。

这与之前的博弈是不同的，参与人无法确定博弈何时结束，没有明确的最后阶段，那么参与人就无法确定什么时候背叛来赢得最后阶段的更高收益。

这就会出现一个现象：如果之前没人选D，就会一直选C合作，一旦有人选了一次D，后面就全是D了。 ——【恐怖扣板机策略(Grim Trigger Strategy)】。

判读持续合作是否是种均衡：

今天背叛的收益与保持合作的收益之差 <= 今后保持合作的收益与保持背叛的收益之差 * 博弈继续下去的概率

**权衡良好行为带来的前景，和不良行为招致的损失，从而抑制我们作弊的念头。 **

结论：使用恐怖扣扳机策略，可以在囚徒困境中实现合作，达到SPE的前提是延续概率delta>=1/3。

更为一般的结论：如果一段持续关系能够为今天的好行为提供激励，那它有助于让这段关系有个持续下去的高概率。

比如说，我和一个修车工有持续的合作，我相信他不会欺骗我，即便他收价高了一点我也找他，他也确实没有欺骗，但是，如果我快要离开了，而他也知道我要离开了（此时，延续概率delta较小），那么，我就可能会为了更便宜而找其他修车工，而他也有可能为了利益而偷工减料。

但是，恐怖扣扳机策略有些严苛，这种策略看来，即便只是一次不经意的欺骗，就会导致再无合作的可能。现实是很复杂的，这其实是有点反应过激的，比如前面的修车工，如果他只是失误换错了零件，我就再也不会去找他修车。因此，我们需要一个惩罚措施，因为小错误和误会经常会发生，我们需要一个相对于恐怖扣扳机策略来说，稍微温和一点的策略。

【单期惩罚(open-period punishment)策略】：开始选择(C, C)，在随后的博弈中，如果出现(C, C)或(D, D)，那么下一个阶段就选择(C, C)；若出现(C, D)或(D, C)，则下一阶段选择(D, D)。

那么单期惩罚是否是SPE呢？