博弈论笔记:重复博弈

1 序贯博弈与重复博弈

1.1 序贯博弈(sequential game)

参与人在前一个决策点的选择决定随后的子博弈的结构。因此, 从后一个决策点开始的子博弈不同于从前一个决策点开始的子博弈。或者说,同样结构的子博弈只出现一次。

1.2 重复博弈(repeated game)

同样结构的博弈重复多次,其中的每次博弈被称为“阶段博弈” (stage game)。(重复博弈中的每一个子博弈:阶段博弈)

1.2.1 重复博弈的特点

->阶段博弈之间没有物理上的联系(前一段博弈的结果不影响后一阶段博弈的结构)

->每一个参与人都可以观察到博弈过去的历史

->每个参与者最后得到的报酬=各个阶段博弈支付的贴现值之和

 

如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动。--->因而有了更多的战略可以选择,均衡结果可能与一次博弈大不相同。

重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。在囚徒困境中,一次博弈的唯一均衡是不合作(即坦白)。但如果博弈无限重复,合作就可能出现。

2 战略空间

2.1 不依赖于过去行动历史的战略

 

·永远背叛战略:All-D——永远不合作

·永远合作战略:All-C——永远合作

2.2 依赖于过去行动历史的战略

 

2.2.1 针锋相对战略(tit-for-tat)

第一次采取合作,之后每一次的行动都建立在对手前一次行动的基础上。

如果你今天不和我合作,我明天也不和你合作;如果你今天和我合作了,那我明天也和你合作。

 

2.2.2 触发战略/冷酷战略(trigger strategies)

第一次采取合作

之后只要没有不合作,就一直合作下去;一旦有一次不合作,之后就都不合作。

3 合作的假值和耐心

本节需要用到的囚徒困境模型

同时就像 博弈论笔记1:囚徒困境与纳什均衡_刘文巾的博客-CSDN博客_博弈说的那样,R>T>P>S; (S+R)<T+T

我们引入贴现因子β(明天的一块钱=今天的β块钱)【β越大——越耐心,越重视未来】

维持长期合作的话,每个人的收益为V=T+ \beta T + \beta ^2 T+ \dots=\frac{T}{1-\beta}, 从这里也能看出,β越大,也就是越耐心,长期合作的收益越大,也就越会合作。

当然,未来利益对人的重要程度还和很多因素有关:

->年龄:“59岁现象”(60岁退休的人,在他59岁的时候,可能会选择更加重视眼前利益的策略)

->家庭:有家庭的人更重视未来的收益

->宗教:因果轮回

4 无名氏定理

在一个无限期的重复博弈中,如果每个参与人对未来都足够重视(β足够大),那么任何程度的合作都可以作为一种精炼纳什均衡来出现(任何程度——整个博弈中合作的概率)。

5 合作与惩罚

5.1 针锋相对

如果双方都坚持针锋相对战略:

1)首次都选择合作,之后也都合作,双方的收益都是

V=T+ \beta T + \beta ^2 T+ \dots=\frac{T}{1-\beta}

 

2)如果对方针锋相对,一方总不合作

那么只有第一轮合作,第二轮开始都不合作。

 

双方的收益为:

只合作一次的那一方:S+Pβ/(1-β)

一直不合作的那一方R+Pβ/(1-β)

 

什么时候会合作呢?

合作的收益大于不合作的收益\frac{T}{1-\beta} \geq R+\frac{P \beta}{1-\beta} ,即 \beta \ge \frac{R-T}{R-P}

合作的好处越大(T越大)/不合作和好处越小(P越小)/单方不合作的收益越小(R越小)

——β的范围越大,合作的可能性越大

5.2 行为的信息传递

假如我不合作两次,才会被发现我的行为。此时的收益为:

R+\beta R+\beta ^2 P +\beta ^3 P+\beta ^4 R + \dots =R(1+\beta) +P \frac{\beta ^2}{1- \beta}

此时的合作条件:

\frac{T}{1-\beta} \ge R(1+\beta) + P \frac{\beta ^2}{1-\beta}

经过化简,得到:

\beta \ge \sqrt{\frac{R-T}{R-P}} \ge \frac{R-T}{R-P}

通过这个,我们可以得到结论:欺骗行为越晚被发现(越难被发现),欺骗发生的可能性就越大。合作就越困难。

5.3  针锋相对战略是一种纳什均衡,但不是一种精炼纳什均衡

t+1时刻,A知道B会合作,所以自己就不会不合作,反而会合作

——所以针锋相对就不是一个精炼纳什均衡

多重关系对于合作的影响

多重交易关系会对人们博弈中的行为产生 重要影响,使得人们之间更容易达成合作。

建立更多关系以达成合作

多重交易问题产生的惩罚的不可信问题:由于惩罚方和被惩罚方有关系,所以惩罚不仅惩罚了被惩罚者,惩罚者本人也在一定程度上被惩罚了

假设两人使用针锋相对战略,那么:

在交易关系1中,合作条件是 \beta_1 \ge \frac{R-T}{R-P}=\frac{4-3}{4-0}=0.25

在交易关系2中,合作条件是\beta_2 \ge \frac{R-T}{R-P}=\frac{9-5}{9-4}=0.8

如果这种交易在同样的两个人之间进行,即这两个人同时进行这两种交易,那么此时的交易关系矩阵变为:

 合作不合作
合作(3+5,3+5)=(8,8)(-1+0,4+9)=(-1,13)
不合作(4+9,-1+0)=(13,-1)(0+4,0+4)=(4,4)

 

此时的合作关系为\beta \ge \frac{R-T}{R-P}=\frac{13-8}{13-4}=0.56

如果本来的β为0.6 那么如果两个交易分开进行的话,只会进行交易1。如果交易1和交易2同时进行,那么此时在这个β的条件下,交易和交易2 都可以进行。

 

市场交易常常镶嵌在复杂的社会关系中。这种关系可以提高交易的合作程度。这也是人们愿意发展社会关系的原因。(家庭血缘关系、朋友关系、同学关系、老乡关系。。。)

6.1 杀熟困境

 

       如果惩罚对惩罚者本身的损害太大,惩罚就是不可信的。
       这与投鼠忌器是一个道理,你讨厌老鼠,但是你没有办法,因为你心疼那个盘子,那个器皿。投鼠忌器在企业内部很多环节都会发生,导致惩罚不可信,所以对方就不会太注重信誉。家族成员有时候比非家族成员更不可信任,更不守规矩,就是这个道理。
        朋友专门骗朋友,是“杀熟”。问题也与惩罚的不可信有关。

6.2 第三方实施惩罚

       前面假定了固定的一对参与人进行重复博弈, 对不合作的惩罚是由“受害人”本人实施的, 称为“second-party enforcement”, 或者 “personal enforcement”。
        但更经常的情况是参与人不固定的情况。此时, 惩罚要由第三方实施(third-party enforcement)。

6.2.1 集体抵制

 

      规则: 每个人都应该诚实,都有责任惩罚骗过人的人;不参与惩罚的人应该受 到惩罚。
 
      如:假定B在 t 期欺骗了 A C 在t+1期就不应该与 B 合作。否则, D t+2 期就不应该与C 合作; 
             如果 C t+1 期与 B合作,而D t+2 期又与 C 合作, E t+3 期就不应该与D 合作,如此等等;
 
敌友规则:开始把所有的人当朋友;t期的朋友关系继续保持到t+1期,当只当他在t期不曾骗过任何人并不曾与你的敌人合作,t+1期才继续是朋友。
  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值