耶鲁大学《博弈论》课程——重复博弈

重复博弈 Repeated Games

日常生活中的大部分互动,是根本没有契约的,但是很多关系都有重复性,比如朋友之间的友谊、国与国之间的互动等都不需要契约来制衡,但是通常情况下,他们之间的合作是持久的。即使在商业上,契约也不一定是完全有用的。所以,我们需要某种方法形成一种模式,以便能使合作(/good behavior)持续下去。这就需要 重复互动

重复互动(Repeated Interaction)】:在一个正在进行的关系中,对于将来奖励的承诺和未来惩罚的威胁,可能会为现在的好行为提供激励。

囚徒困境】案例:

image-20230121123157597

在最后一轮,相当于是一个一次性博弈,纳什均衡是(defect, defect),而且没有了未来的激励,那么理智的参与者都会选择背叛,那么通过逆向归纳法往前推,它的收益再加上最后一轮两人都背叛的收益如下,可见还是一次性博弈:

image-20230121123559586

所以两人还是选择背叛,以此类推,往前的每一轮都会选择背叛。

可以看出,这并不是我们想要的结果,那么这里出现了什么问题? => 重复博弈的最后一个阶段,没有了未来的奖励或者惩罚,所以所有的合作都失败了,局势崩盘。重复互动博弈的重点在于明确未来会对现在的行动提供激励

连任失败效应(lame duck effect),在明确连任失败的时候,就会损害总统或总裁的合作能力。这种效应在经济领域很常见。

在这里能得到结论:在两人都知道一段关系将要结束的时候,那么基本上就不会有持续性的合作了,即使是在重复互动的情况下。

但是这个结论并不完全正确,见下面案例。

案例1】:

image-20230121132842626 image-20230121132905616 image-20230121132933201

结论:如果一个重复的阶段博弈,有不止一个NE,可以通过预测不同的策略造成的结果来为下一次行动提供激励,可以把一个均衡视为奖励,另一个均衡视为惩罚。此时,作为最后一个阶段,仍然有动机促使达成收益更高的均衡,也就是持续合作。

这里存在一个问题:参与人1在第一轮选择背叛,选了B,那么第二轮为啥两人还是选B,为什么不选利益更高的C?

案例2】:

还是合作和背叛游戏,但是这次通过抛硬币决定什么时候结束游戏——双正面结束(75%的概率继续游戏)。

image-20230121134838761

这与之前的博弈是不同的,参与人无法确定博弈何时结束,没有明确的最后阶段,那么参与人就无法确定什么时候背叛来赢得最后阶段的更高收益。

这就会出现一个现象:如果之前没人选D,就会一直选C合作,一旦有人选了一次D,后面就全是D了。 ——【恐怖扣板机策略(Grim Trigger Strategy)】。

判读持续合作是否是种均衡:

image-20230121140742563

今天背叛的收益与保持合作的收益之差 <= 今后保持合作的收益与保持背叛的收益之差 * 博弈继续下去的概率

**权衡良好行为带来的前景,和不良行为招致的损失,从而抑制我们作弊的念头。 **

image-20230124204646396 image-20230124204757229 image-20230124205118174

结论:使用恐怖扣扳机策略,可以在囚徒困境中实现合作,达到SPE的前提是延续概率delta>=1/3。

更为一般的结论:如果一段持续关系能够为今天的好行为提供激励,那它有助于让这段关系有个持续下去的高概率。

比如说,我和一个修车工有持续的合作,我相信他不会欺骗我,即便他收价高了一点我也找他,他也确实没有欺骗,但是,如果我快要离开了,而他也知道我要离开了(此时,延续概率delta较小),那么,我就可能会为了更便宜而找其他修车工,而他也有可能为了利益而偷工减料。

但是,恐怖扣扳机策略有些严苛,这种策略看来,即便只是一次不经意的欺骗,就会导致再无合作的可能。现实是很复杂的,这其实是有点反应过激的,比如前面的修车工,如果他只是失误换错了零件,我就再也不会去找他修车。因此,我们需要一个惩罚措施,因为小错误和误会经常会发生,我们需要一个相对于恐怖扣扳机策略来说,稍微温和一点的策略。

单期惩罚(open-period punishment)策略】:开始选择(C, C),在随后的博弈中,如果出现(C, C)或(D, D),那么下一个阶段就选择(C, C);若出现(C, D)或(D, C),则下一阶段选择(D, D)。

那么单期惩罚是否是SPE呢?

image-20230124212424120

结论:如果希望进行一个较为温和的惩罚,那么就需要延续概率delta更大,也就是说需要在未来加更大的砝码。

外包】案例:

我想要在新兴市场Freedonia(劳动力多,但司法系统不成熟)投资一个项目,想要找一个代理人。

image-20230124213739416

假设这是一次性投资,为了顺利完成生产,我需要给代理人多少工资?

image-20230124213918632

那么如果是持续投资,持续下去的概率是delta,要给的工资w**应为多少?

image-20230126145146292

结论:为了在这些持续关系中获得良好行为,必须要在明天提供一定的报酬。如果你放在明天的砝码(或者说明天持续下去的概率)比较小,那么这个报酬就要比较高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值