重复博弈 Repeated Games
日常生活中的大部分互动,是根本没有契约的,但是很多关系都有重复性,比如朋友之间的友谊、国与国之间的互动等都不需要契约来制衡,但是通常情况下,他们之间的合作是持久的。即使在商业上,契约也不一定是完全有用的。所以,我们需要某种方法形成一种模式,以便能使合作(/good behavior)持续下去。这就需要 重复互动。
【重复互动(Repeated Interaction)】:在一个正在进行的关系中,对于将来奖励的承诺和未来惩罚的威胁,可能会为现在的好行为提供激励。
【囚徒困境】案例:
在最后一轮,相当于是一个一次性博弈,纳什均衡是(defect, defect),而且没有了未来的激励,那么理智的参与者都会选择背叛,那么通过逆向归纳法往前推,它的收益再加上最后一轮两人都背叛的收益如下,可见还是一次性博弈:
所以两人还是选择背叛,以此类推,往前的每一轮都会选择背叛。
可以看出,这并不是我们想要的结果,那么这里出现了什么问题? => 重复博弈的最后一个阶段,没有了未来的奖励或者惩罚,所以所有的合作都失败了,局势崩盘。重复互动博弈的重点在于明确未来会对现在的行动提供激励。
如连任失败效应(lame duck effect),在明确连任失败的时候,就会损害总统或总裁的合作能力。这种效应在经济领域很常见。
在这里能得到结论:在两人都知道一段关系将要结束的时候,那么基本上就不会有持续性的合作了,即使是在重复互动的情况下。
但是这个结论并不完全正确,见下面案例。
【案例1】:
结论:如果一个重复的阶段博弈,有不止一个NE,可以通过预测不同的策略造成的结果来为下一次行动提供激励,可以把一个均衡视为奖励,另一个均衡视为惩罚。此时,作为最后一个阶段,仍然有动机促使达成收益更高的均衡,也就是持续合作。
这里存在一个问题:参与人1在第一轮选择背叛,选了B,那么第二轮为啥两人还是选B,为什么不选利益更高的C?
【案例2】:
还是合作和背叛游戏,但是这次通过抛硬币决定什么时候结束游戏——双正面结束(75%的概率继续游戏)。
这与之前的博弈是不同的,参与人无法确定博弈何时结束,没有明确的最后阶段,那么参与人就无法确定什么时候背叛来赢得最后阶段的更高收益。
这就会出现一个现象:如果之前没人选D,就会一直选C合作,一旦有人选了一次D,后面就全是D了。 ——【恐怖扣板机策略(Grim Trigger Strategy)】。
判读持续合作是否是种均衡:
今天背叛的收益与保持合作的收益之差 <= 今后保持合作的收益与保持背叛的收益之差 * 博弈继续下去的概率
**权衡良好行为带来的前景,和不良行为招致的损失,从而抑制我们作弊的念头。 **
结论:使用恐怖扣扳机策略,可以在囚徒困境中实现合作,达到SPE的前提是延续概率delta>=1/3。
更为一般的结论:如果一段持续关系能够为今天的好行为提供激励,那它有助于让这段关系有个持续下去的高概率。
比如说,我和一个修车工有持续的合作,我相信他不会欺骗我,即便他收价高了一点我也找他,他也确实没有欺骗,但是,如果我快要离开了,而他也知道我要离开了(此时,延续概率delta较小),那么,我就可能会为了更便宜而找其他修车工,而他也有可能为了利益而偷工减料。
但是,恐怖扣扳机策略有些严苛,这种策略看来,即便只是一次不经意的欺骗,就会导致再无合作的可能。现实是很复杂的,这其实是有点反应过激的,比如前面的修车工,如果他只是失误换错了零件,我就再也不会去找他修车。因此,我们需要一个惩罚措施,因为小错误和误会经常会发生,我们需要一个相对于恐怖扣扳机策略来说,稍微温和一点的策略。
【单期惩罚(open-period punishment)策略】:开始选择(C, C),在随后的博弈中,如果出现(C, C)或(D, D),那么下一个阶段就选择(C, C);若出现(C, D)或(D, C),则下一阶段选择(D, D)。
那么单期惩罚是否是SPE呢?
结论:如果希望进行一个较为温和的惩罚,那么就需要延续概率delta更大,也就是说需要在未来加更大的砝码。
【外包】案例:
我想要在新兴市场Freedonia(劳动力多,但司法系统不成熟)投资一个项目,想要找一个代理人。
假设这是一次性投资,为了顺利完成生产,我需要给代理人多少工资?
那么如果是持续投资,持续下去的概率是delta,要给的工资w**应为多少?
结论:为了在这些持续关系中获得良好行为,必须要在明天提供一定的报酬。如果你放在明天的砝码(或者说明天持续下去的概率)比较小,那么这个报酬就要比较高。