博弈论笔记：重复博弈

最新推荐文章于 2024-06-24 16:30:11 发布

UQI-LIUWJ

最新推荐文章于 2024-06-24 16:30:11 发布

阅读量6.7k

点赞数 1

分类专栏：博弈论文章标签：博弈论

本文链接：https://blog.csdn.net/qq_40206371/article/details/117818484

版权

博弈论专栏收录该内容

6 篇文章 14 订阅

订阅专栏

1 序贯博弈与重复博弈

1.1 序贯博弈(sequential game)

参与人在前一个决策点的选择决定随后的子博弈的结构。因此，从后一个决策点开始的子博弈不同于从前一个决策点开始的子博弈。或者说，同样结构的子博弈只出现一次。

1.2 重复博弈(repeated game)

同样结构的博弈重复多次，其中的每次博弈被称为“阶段博弈” (stage game)。（重复博弈中的每一个子博弈：阶段博弈）

1.2.1 重复博弈的特点

->阶段博弈之间没有物理上的联系（前一段博弈的结果不影响后一阶段博弈的结构）

->每一个参与人都可以观察到博弈过去的历史

->每个参与者最后得到的报酬=各个阶段博弈支付的贴现值之和

如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动。--->因而有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。

重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。

2 战略空间

2.1 不依赖于过去行动历史的战略

·永远背叛战略：All-D——永远不合作

·永远合作战略：All-C——永远合作

2.2 依赖于过去行动历史的战略

2.2.1 针锋相对战略（tit-for-tat)

第一次采取合作，之后每一次的行动都建立在对手前一次行动的基础上。

如果你今天不和我合作，我明天也不和你合作；如果你今天和我合作了，那我明天也和你合作。

2.2.2 触发战略/冷酷战略（trigger strategies）

第一次采取合作

之后只要没有不合作，就一直合作下去；一旦有一次不合作，之后就都不合作。

3 合作的假值和耐心

本节需要用到的囚徒困境模型

同时就像博弈论笔记1：囚徒困境与纳什均衡_刘文巾的博客-CSDN博客_博弈说的那样，R>T>P>S; (S+R)<T+T

我们引入贴现因子β（明天的一块钱=今天的β块钱）【β越大——越耐心，越重视未来】

维持长期合作的话，每个人的收益为 $V=T+ \beta T + \beta ^2 T+ \dots=\frac{T}{1-\beta}$ , 从这里也能看出，β越大，也就是越耐心，长期合作的收益越大，也就越会合作。

当然，未来利益对人的重要程度还和很多因素有关：

->年龄：“59岁现象”（60岁退休的人，在他59岁的时候，可能会选择更加重视眼前利益的策略）

->家庭：有家庭的人更重视未来的收益

->宗教：因果轮回

4 无名氏定理

在一个无限期的重复博弈中，如果每个参与人对未来都足够重视（β足够大），那么任何程度的合作都可以作为一种精炼纳什均衡来出现（任何程度——整个博弈中合作的概率）。

5 合作与惩罚

5.1 针锋相对

如果双方都坚持针锋相对战略：

1）首次都选择合作，之后也都合作，双方的收益都是

$V=T+ \beta T + \beta ^2 T+ \dots=\frac{T}{1-\beta}$

2）如果对方针锋相对，一方总不合作

那么只有第一轮合作，第二轮开始都不合作。

双方的收益为：

只合作一次的那一方：S+Pβ/(1-β）

一直不合作的那一方R+Pβ/(1-β）

什么时候会合作呢？

合作的收益大于不合作的收益 $\frac{T}{1-\beta} \geq R+\frac{P \beta}{1-\beta}$ ，即 $\beta \ge \frac{R-T}{R-P}$

合作的好处越大（T越大）/不合作和好处越小（P越小）/单方不合作的收益越小（R越小）

——β的范围越大，合作的可能性越大

5.2 行为的信息传递

假如我不合作两次，才会被发现我的行为。此时的收益为：

$R+\beta R+\beta ^2 P +\beta ^3 P+\beta ^4 R + \dots =R(1+\beta) +P \frac{\beta ^2}{1- \beta}$

此时的合作条件：

$\frac{T}{1-\beta} \ge R(1+\beta) + P \frac{\beta ^2}{1-\beta}$

经过化简，得到：

$\beta \ge \sqrt{\frac{R-T}{R-P}} \ge \frac{R-T}{R-P}$

通过这个，我们可以得到结论：欺骗行为越晚被发现（越难被发现），欺骗发生的可能性就越大。合作就越困难。

5.3 针锋相对战略是一种纳什均衡，但不是一种精炼纳什均衡

t+1时刻，A知道B会合作，所以自己就不会不合作，反而会合作

——所以针锋相对就不是一个精炼纳什均衡

6 多重关系对于合作的影响

多重交易关系会对人们博弈中的行为产生重要影响，使得人们之间更容易达成合作。

建立更多关系以达成合作

多重交易问题产生的惩罚的不可信问题：由于惩罚方和被惩罚方有关系，所以惩罚不仅惩罚了被惩罚者，惩罚者本人也在一定程度上被惩罚了

假设两人使用针锋相对战略，那么：

在交易关系1中，合作条件是 $\beta_1 \ge \frac{R-T}{R-P}=\frac{4-3}{4-0}=0.25$

在交易关系2中，合作条件是 $\beta_2 \ge \frac{R-T}{R-P}=\frac{9-5}{9-4}=0.8$

如果这种交易在同样的两个人之间进行，即这两个人同时进行这两种交易，那么此时的交易关系矩阵变为：

	合作	不合作
合作	(3+5,3+5)=(8,8)	(-1+0,4+9)=(-1,13)
不合作	(4+9,-1+0)=(13,-1)	(0+4,0+4)=(4,4)

此时的合作关系为 $\beta \ge \frac{R-T}{R-P}=\frac{13-8}{13-4}=0.56$

如果本来的β为0.6 那么如果两个交易分开进行的话，只会进行交易1。如果交易1和交易2同时进行，那么此时在这个β的条件下，交易和交易2 都可以进行。

市场交易常常镶嵌在复杂的社会关系中。这种关系可以提高交易的合作程度。这也是人们愿意发展社会关系的原因。（家庭血缘关系、朋友关系、同学关系、老乡关系。。。）

6.1 杀熟困境

如果惩罚对惩罚者本身的损害太大，惩罚就是不可信的。

这与投鼠忌器是一个道理，你讨厌老鼠，但是你没有办法，因为你心疼那个盘子，那个器皿。投鼠忌器在企业内部很多环节都会发生，导致惩罚不可信，所以对方就不会太注重信誉。家族成员有时候比非家族成员更不可信任，更不守规矩，就是这个道理。

朋友专门骗朋友，是“杀熟”。问题也与惩罚的不可信有关。

6.2 第三方实施惩罚

前面假定了固定的一对参与人进行重复博弈，对不合作的惩罚是由“受害人”本人实施的，称为“second-party enforcement”, 或者 “personal enforcement”。

但更经常的情况是参与人不固定的情况。此时，惩罚要由第三方实施(third-party enforcement)。

6.2.1 集体抵制

规则：每个人都应该诚实，都有责任惩罚骗过人的人；不参与惩罚的人应该受到惩罚。

如：假定B在 t 期欺骗了 A ， C 在t+1期就不应该与 B 合作。否则， D 在 t+2 期就不应该与C 合作；

如果 C 在 t+1 期与 B合作，而D 在 t+2 期又与 C 合作， E 在 t+3 期就不应该与D 合作，如此等等；

敌友规则：开始把所有的人当朋友；t期的朋友关系继续保持到t+1期，当只当他在t期不曾骗过任何人并不曾与你的敌人合作，t+1期才继续是朋友。

UQI-LIUWJ

关注

1
点赞
踩
27

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录