第一章博弈论的基本概念及合作行为

Raver & Leaper

已于 2022-02-13 19:27:57 修改

阅读量2.4k

点赞数 3

分类专栏：复杂网络上的博弈文章标签：线性代数

于 2022-02-12 16:38:17 首次发布

本文链接：https://blog.csdn.net/qq_41185569/article/details/122898445

版权

复杂网络上的博弈专栏收录该内容

4 篇文章

订阅专栏

博弈论的核心任务就是为求解社会困境提供方法指导，并且解释在没有计划者和控制者的条件下，微观层面的自利个体通过相互作用如何产生宏观层面的合作以获得更加有效的社会结果。

博弈论两个主要研究方法：基于完全理性个体假设的经典博弈论和基于有限理性个体假设的演化博弈论。

经典博弈理论关注于研究完全理性的博弈参与者为了获取博弈收益或效用的最大化应该如何进行行为决策。

有限理性首先意味着博弈参与者往往不能或不会采用完全理性条件下的最优策略，其次意味着博弈方之间的策略均衡往往是学习调整的结果而不是一次性选择的结果，而且即使达到了均衡也可能再次偏离。因此，演化博弈理论适用于分析有限理性状态下的博弈参与者所组成的特定群体内成员间的反复博弈。

一、完全理性下的经典博弈论

博弈的基本构成

三部分：① 至少两位决策者，即参与者；② 由策略构成的策略空间；③ 博弈获得的收益。
如果策略空间和收益函数对所有的参与者都是公开的，这个博弈就是完全信息博弈，否则被称作不完全信息博弈。
如果博弈的参与者只能同时或者独立的选择策略而不是参考其他人的策略，则称为静态博弈。相反，如果博弈参与者的决策活动是依次选择行为而不是同时选择行为，而且后选择行为者能够看到先选择行为者的选择内容，则称为动态博弈。
在静态博弈和动态博弈的基础上，重复博弈描述了静态博弈和动态博弈的反复进行过程。

对于上述博弈，由于对称性，任何一个参与者可以看做是参与者1进行博弈，对参与者1，在 $a > c$ 且 $b > d$ 的情况下，策略A是最优的，因此策略A为占优策略。

纳什均衡

对于一般形式的博弈G，有几个博弈参与者，每个博弈参与者全部的可选策略集合称为“策略空间”分别用 $S_1，\dots，S_n$ 表示； $s_{ij}\in S_i$ 表示博弈参与者i的第j个策略，其中j可取有限个值（有限个策略），也可取无限个值（无限个策略；博弈参与者i的收益用 $u_i$ 表示， $u_i$ 是各博弈参与者策略的函数。将n个博弈参与者的博弈G表达为 $G={S_1，\dots，S_2; u_1，\dots，u_n}$ ，纳什均衡的定义如下：

在博弈 $G={S_1，\dots，S_2; u_1，\dots，u_n}$ 中，如果博弈参与者的策略组成的策略组合 $(s_1^*，\dots，s_n^*)$ 中，任何一个参与者的策略 $s_i^*$ ，都是对其余参与者策略组合 $(s_1^*，\dots，s_{i-1}^*，s_{i+1}^*，\dots，s_n^*)$ 的最佳对策，即 $u_i$ 关于 $s_i$ 的函数满足
$u_i(s_1^*,\dots,s_{i-1}^*,s_i^*,s_{i+1}^*,\dots,s_n^*) \ge u_i(s_1^*,\dots,s_{i-1}^*,s_{ij}^*,s_{i+1}^*,\dots,s_n^*)$
对任意 $s_{ij} \in S_i$ 都成立，则称 $(s_1^*，\dots，s_n^*)$ 为 $G$ 的一个“纳什均衡”。
博弈模型及其相互关系

只介绍复杂网络上的博弈研究中应用较广泛的三个博弈模型：

首先，博弈矩阵描述的是在对方可能的策略（列）下，我（行）能获得的收益。

囚徒困境模型（Prisoner、Dilemma Game）：两个嫌疑犯被警察分别关在两个不同的屋子里审讯，互相不可能有任何的信息沟通。如果他们两个人都坦白了（即不合作策略或D策略），那么各判刑5年；如果两个人都抵赖（即合作策略或C策略），死不承认，则各判1年；如果其中一个坦白了，另一个抵赖，那么坦白的那个人进行释放，而那个选择抵赖的人将被判8年监禁。这里指的合作是两个嫌疑犯之间的合作，而不是嫌疑犯与警察的合作。根据以上描述，囚徒困境的博弈矩阵如图1-2所示。

那么，每个嫌疑犯根据图1-2所给出的博弈收益会这样考虑自己的策略：如果对方选择不坦白（合作C策略），我选择坦白（背叛D策略）的收益为0，比选择不坦白（合作C策略）的收益-1更好，因此我应该选择坦白（背叛D策略）；反过来，如果对方选择坦白（背叛D策略），我选择坦白（背叛D策略）的收益为-5，以比选择不坦白（合作C策略）的收益-8更好，因此我应该选择坦白（背叛D策略）。因此，两个嫌疑犯都会选择坦白（背叛D策略），此博弈的纳什均衡解为（D，D）策略组合。
雪崩博弈模型（Snowdrift Game）：两个司机在暴风雪中被困于一个大雪崩的两侧，他们现在有两种选择：要么下车开始铲雪（合作策略C），要么待在车上什么也不做（背叛策略D）。如果两个司机都愿意下车铲雪，则两者因为得以顺利回家而人均得到数量为b的收益，共同承担铲雪所付出的劳动代价为c，即每个人因为相互合作得到了报酬 (b-c)/2。如果两个司机都待在温暖的车上，则他们因不能按时回家而没有任何收益，即收益为0。如果其中的一个下来铲雪，则两人也都能顺利回家，但是铲雪的司机（合作者）将独自承担铲雪的工作，因而得到的收益为b-c，而待在车上不劳而获的司机（背叛者）没有付出劳动也回了家，故其获得最大收益b。根据雪崩博弈模型描述的实际意义，其博弈矩阵如图1 -3所示，其中 b>c>0。

那么，每个司机根据图1-3所给出的博弈收益会这样考虑自己的策略：如果对方选择铲雪（合作策略C），我选择待在车上（背叛策略D）的收益为b，比选择铲雪（合作策略C）的收益 (b-c)/2 更好，因此我应该待在车上（背叛策略D）；如果对方选择待在车上（背叛策略D），我选择铲雪（合作策略C）的收益为 b-c，比选择待在车上（背叛策略D）的收益0更好，因此我应该选择铲雪（合作策略C）。因此，雪崩博弈的纳什均衡解有两个，一个是（D，C）策略组合；另一个是（C，D）策略组合，即对方选择合作策略时自己选择背叛策略，对方选择背叛策略时自己选择合作策略。

Tips：从这个例子可以看出来，纳什均衡并不唯一，只要策略是对自己最优的，都是纳什均衡。
牡鹿捕捉模型（Hunt Stag Game）：狩猎者有两个可选择的行为：合作捕捉牡鹿（合作策略C）或单独捕捉兔子（背叛策略D）。对于两个狩猎者来说，其博弈矩阵如图1-4所示。

那么，每个狩猎者根据图1-4所给出的博弈收益会这样考虑自己的策略：如果对方选择合作捕捉牡鹿（合作c策略），我选择合作捕捉牡鹿（合作C策略）的收益为5，比选择单独捕捉兔子（背叛D策略）的收益2更好，因此我应该选择合作捕捉牡鹿（合作C策略）；如果对方选择单独捕捉兔子（背叛D策略），我选择单独捕捉兔子（背叛D策略）的收益为1，比选择合作捕捉牡鹿（合作C策略）的收益0更好，因此我应该选择单独捕捉兔子（背叛D策略）。因此，牡鹿捕捉博弈的纳什均衡解有两个，一个是（C，C）策略组合，共同捕捉牡鹿；另一个是（D，D）策略组合，各自捕捉兔子，即对方选择合作策略时自己选择合作策略，对方选择背叛策略时自己选择背叛策略。
博弈模型之间的关系：上述三个博弈模型都具有典型的社会困境（Social Dilemma）的特点，但其纳什均衡解并不相同。令C为合作策略，D为背叛策略，令R和P分别为两人共同合作和共同背叛时个体得到的收益，S为（C，D）策略组合中选择C策略的个体收益，T（D，C）策略组合中选择D策略的个体收益，一个社会困境的博弈矩阵如图1 -5所示。

在一个社会困境中，策略组合产生的收益关系必须满足以下4个条件。
- R>P。博弈个体偏好共同合作（C，C）而非共同背叛（D，D）。
- R>S。博弈个体偏好共同合作（C，C）而非单方面合作（C，D）。
- 2R>T+S。共同合作（C，C）产生的集体收益大于单方面合作（C，D）或单方面背叛（D，C）所产生的集体收益。
- T>R或P>S。博弈个体偏好单方面背叛（D，C）而非共同合作（C，C），或者博弈个体偏好共同的背叛（D，D）而非单方面合作（C，D）。T>R描述了个体的贪婪特性，P>S描述了个体对博弈对手选择背叛策略的担心或害怕。

二、有限理性和演化博弈论

有限理性及其对博弈的影响

有限理性意味着博弈参与者没有能力一开始就找到最优策略，而是会在博弈过程中进行不断学习，通过试错的过程不断寻找更好的策略。

由于有限理性博弈参与者可能有很多理性层次，学习和策略调整的方式和速度也就不尽相同。下面介绍两种重要的学习和策略调整模式：最优反应动态和复制动态。
最优反映动态

学习和策略调整模式为：博弈参与者能够针对不同的策略结果进行比较和评估，并相应地调整自己的策略。也就是说，给定前面的博弈结果，各个博弈参与者都能找到和采用针对前期其他博弈参与者策略的最佳反应策略。

对于图 1-4 所示的牡鹿捕捉博弈，已经知道在二人静态博恋下存在两个纳什均衡解，即 (C，C) 策略组合和 (D，D) 策略组合。现在假定有5个人参与博弈，处于图 1-6 所示圆周上的 5 个位置，每个博弈参与者与各自的左右邻居进行博弈。

假设 $x_{i} (t)$ 为在 $t$ 时期博弈参与者 $i$ 采用D策略的邻居数量，有 0，1，2 三个可能的值。相应地，采用 C 策略的邻居数量为 $2-x_{i}(t)$ ，也有 0，1，2 三个可能值。那么，针对第 $t$ 期邻居的策略情况 $x_{i}(t)$ ，博弈参与者 $i$ 采用 D 策略的收益为 $x_{i}(t) \cdot 1+\left[2-x_{i}(t)\right] \cdot 2$ ，采用 C 策略的收益为 $x_{i}(t) \cdot 0+\left[2-x_{i}(t)\right] \cdot 5$ 。根据最优反应动态机制，博弈参与者会比较不同策略所产生的收益结果，当 $x_{i}(t) \cdot 1+\left[2-x_{i}(t)\right] \cdot 2$ 大于 $x_{i}(t) \cdot 0+[2- \left.x_{i}(t)\right] \cdot 5$ ，即 $x_{i}(t)>1.5$ 时 (有两个背叛邻居)，博弈参与者 $i$ 会在 $t + 1$ 期采用 D 策略；相反，当 $x_{i}(t)<1.5$ 时（有 1 个或 0 个背叛邻居），博弈参与者 $i$ 会在 $t + 1$ 期采用 C 策略。

上述博弈初始状态一共会有 $2^5=32$ 种，除初始状态全为 D 策略外，其余31种在最优反映动态机制下都会收敛为全部采用 C 策略的状态，如图 1-7 所示。

即所有博弈参与者都采用 C 策略和所有博弈参与者都采用 D 策略都是有限理性博弈参与
者进行牡鹿捕捉博弈的均衡状态。但所有参与者都采用 C 策略的均衡状态更具有稳健性，这在演化博弈论中被称为“演化稳定均衡解”。
复制动态

复制动态用来分析数量较多的成员进行随机配对博弈时，有限理性博弈参与者的策略调整及稳定性。

假定数量较多的有限理性博弈参与者组成了一个大群体，参与者之间没有差异并进行随机配对博弈，每次博弈可能有不同的博弈对手，此时最优反应动态不在适用。以图 1-5 的社会困境为例。

假设整个群体中采取合作©策略的博弈参与者比例是 $x$ ，背叛(D)策略的博弈参与者比例是 $1 - x$ 。进行随机配对博弈，每个博弈参与者遇到 C 策略类型博弈对手的概率是 $x$ ，遇到 D 策略类型博弈对手的概率是 $1 - x$ 。群体里采用 C 策略和 D 策略的博弈参与者的期望收益 $u_C$ 和 $u_D$ 分别为
$u_{C}=x \cdot R+(1-x) \cdot S\\ u_{D}=x \cdot T+(1-x) \cdot P$
则，整个群体的平均期望收益 $\bar u$ 为
$\bar u=x \cdot u_c+(1-x) \cdot u_D$
随着时间推移和策略改变， $x$ $和 1 - x$ 会随着时间变化而变化。采用 C 策略的博弈参与者的比例变化可以用动态微分方程进行描述，即
$\frac{\mathrm{d} x}{\mathrm{~d} t}=x\left(u_{C}-\bar{u}\right)$
上述动态微分方程即复制动态方程，将 $u_C$ 和 $\bar u$ 带入上述方程，有
$F(x)=\frac{\mathrm{d} x}{\mathrm{~d} t} = x(1-x)(R x-S x-T x+P x+S-P)$
令 $F (x) = 0$ ，可以解出比例 $x$ 不在改变的状态，即合作者比例的稳定状态为 $x_{1}=0， x_{2}=1， x_{3}=\frac{P-S}{R-T+P-S}\left(0 \leqslant x_{3} \leqslant 1\right)$ 。

作为演化稳定解的点 $x^*$ ，除了本身是复制动态方程的稳定均衡状态，还必须在某些博弈方策略改变后，复制动态能够使得偏离的 $x$ 回到 $x^*$ ，即要求
- $x<x^*$ 时，希望 $x$ 能够增大，即 $F(x)=\frac{dx}{dt}>0$ ；
- $x>x^*$ 时，希望 $x$ 能够减小，即 $F(x)=\frac{dx}{dt}<0$ 。
即 $F (x) = 0$ 且 $F^{'} (x) < 0$ 时的稳定点 $x^*$ 是群体复制动态的演化稳定解。

通过上述分析方法可以对本章第一节的三种博弈模型进行稳定状态和演化稳定解存在与否进行分析。

三、基于博弈论的合作行为

到目前为止，主要形成了5个解释人类合作行为的基础理论，包括亲缘合作、互惠合作、声誉合作、网络合作和团队合作。

亲缘合作行为

亲缘选择合作理论的核心内容是：合作行为更有可能出现在有亲缘关系的个体之间，这是由基因决定的本性。由基因所决定的个体之间的亲缘关系越近，越有可能产生合作。
互惠合作行为

互惠合作机制所描述的个体之间的博弈过程是经典博弈论里的重复博弈过程。

好的策略：采取友好合作，同时惩罚背叛的“针锋相对” 策略(Tit-For-Tat策略)，即第一次采用合作的策略，以后每一步都跟随对方上一步的策略将成为最后的冠军。

互惠合作理论的核心内容是：合作有可能出现在频繁发生相互作用个体之间，个体之间发生重复相互作用的频率越高，越有可能产生合作现象。
声誉合作行为

声誉合作理论的核心内容是：合作有可能出现在考虑自身声誉的个体之间，个人声誉被他人所知的可能性越大，个体越有可能采取合作行为。
网络合作行为

个体的策略学习规则、个体所面临的博弈情景、由网络结构所定义个体之间的交互作用形式都会对合作的演化产生影响。即本笔记《复杂网络上的博弈》后续主要内容。
团队合作行为

团队选择合作理论的核心内容是：如果现实中的个体被划分为一个个团队，合作行为只在团队内部起作用，合作者所聚集的团队有可能战胜背叛者聚集的团队。